CN109255066B - 一种业务对象的标签标记方法、装置、服务器和存储介质 - Google Patents

一种业务对象的标签标记方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN109255066B
CN109255066B CN201811158013.6A CN201811158013A CN109255066B CN 109255066 B CN109255066 B CN 109255066B CN 201811158013 A CN201811158013 A CN 201811158013A CN 109255066 B CN109255066 B CN 109255066B
Authority
CN
China
Prior art keywords
candidate
words
target
dependency relationship
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811158013.6A
Other languages
English (en)
Other versions
CN109255066A (zh
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongying Boyu Technology Co.,Ltd.
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811158013.6A priority Critical patent/CN109255066B/zh
Publication of CN109255066A publication Critical patent/CN109255066A/zh
Application granted granted Critical
Publication of CN109255066B publication Critical patent/CN109255066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种业务对象的标签标记方法、装置、服务器和存储介质。该方法包括:从业务对象中提取文本信息,并写入文本集合中;从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;基于所述相关度从所述候选词组中选择目标候选词组;将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。无需用户手动选择合适的词作为业务对象的标签,降低了工作量、并提高了效率。

Description

一种业务对象的标签标记方法、装置、服务器和存储介质
技术领域
本发明实施例涉及自然语言处理的技术,尤其涉及一种业务对象的标签标记方法、装置、服务器和存储介质。
背景技术
随着网络科技的快速发展,在不同的业务领域中产生了大量的业务对象,例如,直播间、商品、电影,等等。
这些业务对象存在相关的一些文本信息,如用户评论、标题、介绍等,目前,基于词频、最大熵等方式从这些文本信息选择合适的词,标记为业务对象的标签,方便用户搜索业务对象以及平台推荐相关的业务对象。
但是,对于直播间等业务对象,存在大量无意义的文本信息,导致文本信息的精确性较低,导致选择的词多为一些无意义的词,代表性较低,不适合作为标签。
因此,对于直播间等业务对象,需要手动选择合适的词作为业务对象的标签,导致工作量大、效率低。
发明内容
本发明实施例提供一种业务对象的标签标记方法、装置、服务器和存储介质,以解决在业务对象存在大量无意义的文本信息时,手动选择合适的词作为业务对象的标签,导致工作量大、效率低的问题。
第一方面,本发明实施例提供了一种业务对象的标签标记方法,包括:
从业务对象中提取文本信息,并写入文本集合中;
从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;
在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;
基于所述相关度从所述候选词组中选择目标候选词组;
将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
可选地,所述业务对象为直播间,所述从业务对象中提取文本信息,并写入文本集合中,包括:
提取在所述直播间中发布的弹幕信息;
将所述弹幕信息作为文本信息写入文本集合中。
可选地,所述从所述文本信息中提取候选词组,包括:
识别所述文本信息中各个词语之间的依存关系;
若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;
将所述特征依存关系对应的词组作为候选词生成候选词组。
可选地,所述特征依存关系包括直接依存关系和间接依存关系;
所述直接依存关系包括如下的至少一种语法结构:
形容词修饰词amod、名词主语nsubj、直接宾语dobj、副词修饰advmod;
所述间接依存关系包括如下的至少一种语法结构:
形容词amod与名词主语nsubj、名词主语nsubj与直接宾语dobj。
可选地,所述在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度,包括:
在所述文本集合中,将所述文本信息的词组转换为词向量空间;
在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;
在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;
结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度。
可选地,通过如下公式计算所述候选词组中所述候选词之间的相关度:
Figure BDA0001819368090000031
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率,p(wj)为wj的出现概率,cos(wi,wj)为wi与wj的相似度,λ为调整参数。
可选地,所述基于所述相关度从所述候选词组中选择目标候选词组,包括:
从所述相关度选择目标相关度,其中,所述目标相关度为值最高的m个相关度;
将所述目标相关度值对应的所述候选词组设置为目标候选词组。
可选地,所述将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息,包括:
基于所述目标候选词组对应的特征依存关系确定目标词性;
将符合所述目标词性的所述候选词标记为所述业务对象的标签信息。
第二方面,本发明实施例还提供了一种业务对象的标签标记装置,包括:
文本信息提取模块,用于从业务对象中提取文本信息,并写入文本集合中;
候选词组提取模块,用于从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;
相关度计算模块,用于在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;
目标候选词组选择模块,用于基于所述相关度从所述候选词组中选择目标候选词组;
标签信息标记模块,用于将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
可选地,所述业务对象为直播间,所述文本信息提取模块包括:
弹幕信息提取子模块,用于提取在所述直播间中发布的弹幕信息;
弹幕信息写入子模块,用于将所述弹幕信息作为文本信息写入文本集合中。
可选地,所述候选词组提取模块包括:
依存关系识别子模块,用于识别所述文本信息中各个词语之间的依存关系;
特征依存关系确定子模块,用于若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;
候选词组生成子模块,用于将所述特征依存关系对应的词组作为候选词生成候选词组。
可选地,所述特征依存关系包括直接依存关系和间接依存关系;
所述直接依存关系包括如下的至少一种语法结构:
形容词修饰词amod、名词主语nsubj、直接宾语dobj、副词修饰advmod;
所述间接依存关系包括如下的至少一种语法结构:
形容词amod与名词主语nsubj、名词主语nsubj与直接宾语dobj。
可选地,所述相关度计算模块包括:
词向量空间转换子模块,用于在所述文本集合中,将所述文本信息的词组转换为词向量空间;
共现率计算子模块,用于在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;
相似度计算子模块,用于在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;
结合计算子模块,用于结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度。
可选地,通过如下公式计算所述候选词组中所述候选词之间的相关度:
Figure BDA0001819368090000051
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率,p(wj)为wj的出现概率,cos(wi,wj)为wi与wj的相似度,λ为调整参数。
可选地,所述目标候选词组选择模块包括:
目标相关度选择子模块,用于从所述相关度选择目标相关度,其中,所述目标相关度为值最高的m个相关度;
目标候选词组设置子模块,用于将所述目标相关度值对应的所述候选词组设置为目标候选词组。
可选地,所述标签信息标记模块包括:
目标词性确定子模块,用于基于所述目标候选词组对应的特征依存关系确定目标词性;
候选词标记子模块,用于将符合所述目标词性的所述候选词标记为所述业务对象的标签信息。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面实施例提供的业务对象的标签标记方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明第一方面实施例提供的业务对象的标签标记方法。
在本发明实施例中,从业务对象中提取文本信息,并写入文本集合中,从文本集合中的文本信息中提取具有特征依存关系的候选词组,在文本集合中,分别对候选词组中计算候选词之间的相关度,基于相关度从候选词组中选择目标候选词组,将目标候选词组中的候选词标记为业务对象的标签信息,通过依存关系可从大量无意义的文本信息中选择依存紧密的候选词组,从而基于候选词组中的候选词设置为标签信息,保证了标签的代表性,无需用户手动选择合适的词作为业务对象的标签,降低了工作量、并提高了效率。
附图说明
图1是本发明实施例一中的一种业务对象的标签标记方法的流程图;
图2是本发明实施例二中的另一种业务对象的标签标记方法的流程图;
图3是本发明实施例二中的一种文本信息的依存关系的示例图;
图4是本发明实施例三中的一种业务对象的标签标记装置的结构示意图;
图5是本发明实施例四中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例一提供的一种业务对象的标签标记方法的流程图,本实施例可适用于对业务对象进行标签标记的场景,以便于进一步根据标签对业务对象进行处理,该方法可以由服务器来执行,具体包括如下步骤:
S110、从业务对象中提取文本信息,并写入文本集合中。
在本发明实施例中,可以对业务对象采集相关的文本信息,并将该文本信息作为语料存储至一文本集合中。
对于不同业务领域而言,可以具有不同的业务对象,即具有业务领域特征的对象。
例如,对于直播领域而言,业务对象可以为直播间;对于影视领域而言,业务对象可以为电视剧数据、电影数据;对于电子商务(Electronic Commerce,EC)领域而言,业务对象可以为商品数据,等等。
业务对象虽然承载不同的业务特性,但其本质仍然是数据,例如,文本数据、图像数据、音频数据、视频数据等等。
需要说明的是,针对不同的业务对象,可以采集不同的文本信息、并写入文本集合中,本发明实施例对此不加以限制。
S120、从所述文本信息中提取候选词组。
对于业务对象的文本信息,可以进行自然语言处理,从中提取合适的候选词组。
其中,候选词组中的候选词具有特征依存关系,即指定的依存关系。
在自然语言处理中,“依存”是指词与词之间的支配关系,即这种依存关系并不是对等的,是具有方向性的。
S130、在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度。
在本发明实施例中,以文本集合作为计量的空间,计算候选词组中候选词之间的相关度。
S140、基于所述相关度从所述候选词组中选择目标候选词组。
应用本发明实施例,可以预先设置目标候选词组的选择方式,若当前计算出候选词之间的相关度,则可以按照该选择方式,按照相关度从候选词组中选择若干个目标候选词组。
当然,目标候选词组的数量小于候选词组的数量。
在一种实施例方式中,可以对相关度的值进行比较,从相关度选择目标相关度,其中,目标相关度为值最高的m个相关度,m为正整数,并且,m小于候选词组的数量。
将目标相关度值对应的候选词组设置为目标候选词组。
当然,上述目标候选词组的选择方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他目标候选词组的选择方式,例如,可以根据阈值选择目标候选词组,即相关度超过该阈值的候选词组即可设置为目标候选词组,如果标签的数量较大(表现为大于某个阈值),可将阈值设置为一个较低的值,如0.4,如果标签的数量较少(表现为小于某个阈值),可将阈值设置为一个较高的值,如0.8,等等本发明实施例对此不加以限制。另外,除了上述目标候选词组的选择方式外,本领域技术人员还可以根据实际需要采用其它目标候选词组的选择方式,本发明实施例对此也不加以限制。
S150、将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
在具体实现中,对于将目标候选词组中的候选词,可以将部分候选词标记为业务对象的标签信息,也可以将全部候选词标记为业务对象的标签信息,本发明实施例对此不加以限制。
在一种实施方式中,对于目标候选词组中存在依存关系的候选词,可以将被依存的词作为业务对象的标签信息。
在本发明实施例中,从业务对象中提取文本信息,并写入文本集合中,从文本集合中的文本信息中提取具有特征依存关系的候选词组,在文本集合中,分别对候选词组中计算候选词之间的相关度,基于相关度从候选词组中选择目标候选词组,将目标候选词组中的候选词标记为业务对象的标签信息,通过依存关系可从大量无意义的文本信息中选择依存紧密的候选词组,从而基于候选词组中的候选词设置为标签信息,保证了标签的代表性,无需用户手动选择合适的词作为业务对象的标签,降低了工作量、并提高了效率。
图2为本发明实施例二提供的另一种业务对象的标签标记方法的流程图,本实施例以前述实施例为基础,进一步增加了对候选词组、相关度的处理操作,该方法可以由服务器来执行,具体包括如下步骤:
S201,提取在所述直播间中发布的弹幕信息,将所述弹幕信息作为文本信息写入文本集合中。
在本发明实施例中,业务对象为直播间,用户在登录直播平台之后,进入该直播间观看直播视频,此时,用户可以在直播间中针对该直播视频发表大量的弹幕信息。
对于直播平台而言,这些弹幕信息可以关联该直播间在数据库进行持久化存储,在对各个直播间训练标签信息时,可以从数据库中提取各个直播间提取关联的弹幕信息,去除时间、用户ID等参数,以其内容(文本信息)写入文本集合中,作为训练标签信息的语料。
S202,识别所述文本信息中各个词语之间的依存关系。
在具体实现中,可以通过LTP(语言技术平台)、结巴(jieba)和HanLP(汉语言处理包)等方式,对文本信息进行语义依存分析(Semantic Dependency Parsing,SDP),分析文本信息各个词语之间的语义关联,并将语义关联以依存结构呈现。
需要说明的是,在识别依存关系时,可以进行分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等一系列的操作,本发明实施例对此不加以限制。
以LTP为例,将文本信息“他叫汤姆去拿外衣。”输入至LTP分析依存关系。
如图3所示,对该文本信息中的词标注词性如下:
“他”标注r(pronoun,代名词),“叫”、“去”、“拿”标注v(verb,动词),“汤姆”标注nh(person name,人名),“外衣”标注n(general noun,一般名词),对“。”标注WP(标点)。
此外,依存关系如下表示:
ROOT表示根节点,“叫”为HED(head,核心),“他”与“叫”之间为SBV(subject-verb,主谓关系),“叫”与“拿”、“拿”与“外衣”为VOB(verb-object,动宾关系),“叫”与“汤姆”之间为DBL(double,兼语),“去”与“拿”之间为ADV(adverbial,状中结构)。
S203,若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系。
S204,将所述特征依存关系对应的词组作为候选词生成候选词组。
应用本发明实施例,可以设置一个或多个指定的语法结构,生成依存句法关系列表。
在识别文本信息中各个词语之间的依存关系之后,将该依存关系与依存句法关系列表中的语法结构进行匹配,若两者匹配成功,则确定该依存关系为特征依存关系,并将特征依存关系对应的词组作为候选词,从而将该候选词组合为候选词组。
在具体实现中,特征依存关系包括直接依存关系和间接依存关系。
直接依存关系为包含一个指定的语法结构的依存关系,具体可以包括如下的至少一种语法结构:
1、形容词修饰词amod(adjectival modifier)
例如,“人美声甜的小姐姐”。
2、名词主语nsubj(nominal subject)
例如,“龙骑士很强势”。
3、直接宾语dobj(direct object)
例如,“主播拿走了他的钥匙”。
4、副词修饰advmod(adverbial modifier)
例如,“非常好听的歌声”。
间接依存关系包含至少两个指定的语法结构的依存关系,具体可以包括如下的至少一种语法结构:
1、形容词amod与名词主语nsubj
例如,“漂亮的小姐姐”。
2、名词主语nsubj与直接宾语dobj
例如,“我喜欢这个主播”。
当然,上述指定的语法结构只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他指定的语法结构,本发明实施例对此不加以限制。另外,除了上述指定的语法结构外,本领域技术人员还可以根据实际需要采用其它指定的语法结构,本发明实施例对此也不加以限制。
S205,在所述文本集合中,将所述文本信息的词组转换为词向量空间。
对于文本集合中的文本信息,可以通过TF-IDF(term frequency–inversedocument frequency,词频-逆文本频率指数)、Word2vec(词向量计算工具)等方式,将文本信息的词转换为向量,从而构建词向量空间。
其中,该文本信息的词组包括候选词组中的候选词。
S206,在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率。
在具体实现中,共现率,可以指共同出现的概率。
在词向量空间中,统计候选词组中的候选词在同一个文本信息中共同出现的数量,计算该共同出现的数量与文本信息的数量之间的比值,即可作为共现率。
S207,在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度。
在词向量空间中,可以计算同一个候选词组中候选词之间的余弦值,作为相似度。
S208,结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度。
在计算同一个候选词组中候选词之间的相关度,一方面,考虑具有共现关系的候选词之间的共现率,一般而言,共现率越高,候选词越重要,因此,共现率与相关度正相关。
另一方面,一般意义越相近的候选词出现在一起的概率越高,因此考虑候选词之间的相似度,相似度与相关度正相关。
需要说明的是,相似度计算过程中考虑上下位关系,而相关度除了考虑上下位关系,还考虑了其他类型的关系,相关度比相似度具有更普遍的概念,包含了出相似之外的更广阔的关系。
在一个示例中,通过如下公式计算候选词组中候选词之间的相关度:
Figure BDA0001819368090000141
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率(即wi的数量与文本信息的数量之间的比值),p(wj)为wj的出现概率(即wj的数量与文本信息的数量之间的比值),cos(wi,wj)为wi与wj的相似度,λ为调整参数。
进一步地,对于直接依存关系的候选词组,上述公式可以化简为:
Figure BDA0001819368090000142
此外,对于间接依存关系的候选词组,上述公式可以保留为:
Figure BDA0001819368090000143
S209,基于所述相关度从所述候选词组中选择目标候选词组。
S210,将所述目标候选词组中的所述候选词标记为所述直播间的标签信息。
在一种实施方式中,可以预先设置特征依存关系与目标词性之间的映射关系,一般而言,名词短语比形容词更具有代表性。
在此实施方式中,在该映射关系中,基于目标候选词组对应的特征依存关系确定目标词性,将符合目标词性的候选词标记为业务对象的标签信息。
在本发明实施例中,将目标候选词组设置为直播间的标签信息,标签信息基于弹幕信息生成,标签信息对于直播间的内容具有达标性,用户可以通过直播间的标签信息多维度地识别直播间的内容,从而快速选择喜欢的直播间,操作简便、效率高。
一方面,对于直接依存关系:
1、对于形容词修饰词amod,可以将词性为形容词的候选词标记为标签信息。
例如,在“人美声甜的小姐姐”中,可以将“人美声甜”设置为标签信息。
2、对于名词主语nsubj,可以将词性为名词的候选词标记为标签信息。
例如,在“龙骑士很强势”中,可以将“龙骑士”设置为标签信息。
3、对于直接宾语dobj,可以将词性为宾语的候选词标记为标签信息。
例如,在“主播拿走了他的钥匙”中,可以将“钥匙”设置为标签信息。
4、对于副词修饰advmod,可以将词性为副词的候选词标记为标签信息。
例如,在“非常好听的歌声”中,可以将“非常”设置为标签信息。
对于间接依存关系:
1、对于形容词amod与名词主语nsubj,可以将词性为名词的候选词标记为标签信息。
例如,在“漂亮的小姐姐”中,可以将“小姐姐”设置为标签信息。
2、名词主语nsubj与直接宾语dobj,可以将词性为谓语的候选词标记为标签信息。
例如,在“我喜欢这个主播”中,可以将“喜欢”设置为标签信息。
需要说明的是,如果被选择为标签信息的候选词存在重合,对这些候选词进行去重处理即可,而不一定需要增补新的候选词作为新的标签信息,本发明实施例对此不加以限制。
在本发明实施例中,基于候选词之间的同现率与相似度计算相关度,可以提高意义相近的候选词之间的相关度,从而提高这些代表性高的候选词被选择为标签信息的概率,保证标签信息的代表性。
为使本领域技术人员更好地理解本发明实施例,以下通过具体的示例来说明本发明实施例中对业务对象标记标签信息的方法。
一方面,在依存关系列表中设置直接依存关系包括如下的至少一种语法结构:
形容词修饰词amod、名词主语nsubj、直接宾语dobj、副词修饰advmod。
另一方面,在依存关系列表中设置间接依存关系包括如下的至少一种语法结构:
形容词amod与名词主语nsubj、名词主语nsubj与直接宾语dobj。
从某个用于直播游戏的直播间中提取用户发布的弹幕,并生成文本集合,将文本集合中的弹幕输入至LTP中分析依存关系。
其中,部分的弹幕如下:
1、人美声甜的小姐姐喜欢
2、我喜欢这个主播
3、意识上流的打野
依据依存关系列表,弹幕1符合amod、弹幕2符合nsubj+dobj、弹幕3符合admod+nsubj,从上述弹幕中抽取出了以下候选词,组成候选词组:
1、<人美声甜,小姐姐>
2、<我,喜欢>
3、<意识上流,打野>
计算上述各个候选词之间的概率:
1、P(人美声甜,小姐姐)=0.25
p(人美声甜)=0.6
p(小姐姐)=0.65
cos(人美声甜,小姐姐)=0.35
2、P(我,喜欢)=0.34
P(我)=0.8
P(喜欢)=0.4
cos(我,喜欢)=0.21
3、P(意识上流,打野)=0.1
P(意识上流)=0.1
P(打野)=0.26
cos(意识上流,打野)=0.57
应用公式
Figure BDA0001819368090000171
计算候选词组之间的相关性:
Corr(人美声甜,小姐姐)=0.077
Corr(我,喜欢)=0.00636
Corr(意识上流,打野)=0.383
若对直播间生成2个标签信息,则选取相关度最高的2个候选词组,作为目标词组:
<意识上流,打野>,<人美声甜,小姐姐>
按照依存关系列表,每个目标词组保留一个候选词,标记为直播间的标签信息:
打野、人美声甜
图4为本发明实施例三提供的一种业务对象的标签标记装置的结构示意图,具体可以包括如下模块:
文本信息提取模块410,用于从业务对象中提取文本信息,并写入文本集合中;
候选词组提取模块420,用于从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;
相关度计算模块430,用于在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;
目标候选词组选择模块440,用于基于所述相关度从所述候选词组中选择目标候选词组;
标签信息标记模块450,用于将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
在本发明实施例的一个示例中,所述业务对象为直播间,所述文本信息提取模块410包括:
弹幕信息提取子模块,用于提取在所述直播间中发布的弹幕信息;
弹幕信息写入子模块,用于将所述弹幕信息作为文本信息写入文本集合中。
在本发明的一个实施例中,所述候选词组提取模块420包括:
依存关系识别子模块,用于识别所述文本信息中各个词语之间的依存关系;
特征依存关系确定子模块,用于若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;
候选词组生成子模块,用于将所述特征依存关系对应的词组作为候选词生成候选词组。
在具体实现中,所述特征依存关系包括直接依存关系和间接依存关系;
所述直接依存关系包括如下的至少一种语法结构:
形容词修饰词amod、名词主语nsubj、直接宾语dobj、副词修饰advmod;
所述间接依存关系包括如下的至少一种语法结构:
形容词amod与名词主语nsubj、名词主语nsubj与直接宾语dobj。
在本发明的一个实施例中,所述相关度计算模块430包括:
词向量空间转换子模块,用于在所述文本集合中,将所述文本信息的词组转换为词向量空间;
共现率计算子模块,用于在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;
相似度计算子模块,用于在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;
结合计算子模块,用于结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度。
在本发明实施例的一个示例中,通过如下公式计算所述候选词组中所述候选词之间的相关度:
Figure BDA0001819368090000191
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率,p(wj)为wj的出现概率,cos(wi,wj)为wi与wj的相似度,λ为调整参数。
在本发明的一个实施例中,所述目标候选词组选择模块440包括:
目标相关度选择子模块,用于从所述相关度选择目标相关度,其中,所述目标相关度为值最高的m个相关度;
目标候选词组设置子模块,用于将所述目标相关度值对应的所述候选词组设置为目标候选词组。
在本发明的一个实施例中,所述标签信息标记模块450包括:
目标词性确定子模块,用于基于所述目标候选词组对应的特征依存关系确定目标词性;
候选词标记子模块,用于将符合所述目标词性的所述候选词标记为所述业务对象的标签信息。
本发明实施例所提供的业务对象的标签标记装置可执行本发明任意实施例所提供的业务对象的标签标记方法,具备执行方法相应的功能模块和有益效果。
图5为本发明实施例四提供的一种服务器的结构示意图,如图5所示,该服务器包括处理器50、存储器51、输入装置52和输出装置53;服务器中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;服务器中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的业务对象的标签标记方法对应的程序指令/模块(例如,文本信息提取模块410、候选词组提取模块420、相关度计算模块430、目标候选词组选择模块440和标签信息标记模块450)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的业务对象的标签标记方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种业务对象的标签标记方法,该方法包括:
从业务对象中提取文本信息,并写入文本集合中;
从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;
在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;
基于所述相关度从所述候选词组中选择目标候选词组;
将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的业务对象的标签标记中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述业务对象的标签标记装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种业务对象的标签标记方法,其特征在于,包括:
从业务对象中提取文本信息,并写入文本集合中;
从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系,其中,所述候选词组的提取方法包括:识别所述文本信息中各个词语之间的依存关系;若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;将所述特征依存关系对应的词组作为候选词生成候选词组;所述特征依存关系包括直接依存关系和间接依存关系,所述直接依存关系包括如下的至少一种语法结构:形容词修饰词、名词主语、直接宾语、副词修饰;所述间接依存关系包括如下的至少一种语法结构:形容词与名词主语、名词主语与直接宾语;
在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度,包括:在所述文本集合中,将所述文本信息的词组转换为词向量空间;在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度,包括:
Figure FDA0003243306220000011
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率,p(wj)为wj的出现概率,cos(wi,wj)为wi与wj的相似度,λ为调整参数;
基于所述相关度从所述候选词组中选择目标候选词组;
将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
2.根据权利要求1所述的方法,其特征在于,所述业务对象为直播间,所述从业务对象中提取文本信息,并写入文本集合中,包括:
提取在所述直播间中发布的弹幕信息;
将所述弹幕信息作为文本信息写入文本集合中。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述相关度从所述候选词组中选择目标候选词组,包括:
从所述相关度选择目标相关度,其中,所述目标相关度为值最高的m个相关度,其中,m为正整数,m小于候选词组的数量;
将所述目标相关度值对应的所述候选词组设置为目标候选词组。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息,包括:
基于所述目标候选词组对应的特征依存关系确定目标词性;
将符合所述目标词性的所述候选词标记为所述业务对象的标签信息。
5.一种业务对象的标签标记装置,其特征在于,包括:
文本信息提取模块,用于从业务对象中提取文本信息,并写入文本集合中;
候选词组提取模块,用于从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系,其中,所述候选词组的提取方法包括:识别所述文本信息中各个词语之间的依存关系;若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;将所述特征依存关系对应的词组作为候选词生成候选词组;所述特征依存关系包括直接依存关系和间接依存关系,所述直接依存关系包括如下的至少一种语法结构:形容词修饰词、名词主语、直接宾语、副词修饰;所述间接依存关系包括如下的至少一种语法结构:形容词与名词主语、名词主语与直接宾语;
相关度计算模块,用于在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度,包括:在所述文本集合中,将所述文本信息的词组转换为词向量空间;在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度,包括:
Figure FDA0003243306220000031
其中,wi为第i个候选词,wj为第j个候选词,P(wi,wj)为wi与wj的共现率,p(wi)为wi的出现概率,p(wj)为wj的出现概率,cos(wi,wj)为wi与wj的相似度,λ为调整参数;
目标候选词组选择模块,用于基于所述相关度从所述候选词组中选择目标候选词组;
标签信息标记模块,用于将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。
6.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的业务对象的标签标记方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的业务对象的标签标记方法。
CN201811158013.6A 2018-09-30 2018-09-30 一种业务对象的标签标记方法、装置、服务器和存储介质 Active CN109255066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811158013.6A CN109255066B (zh) 2018-09-30 2018-09-30 一种业务对象的标签标记方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811158013.6A CN109255066B (zh) 2018-09-30 2018-09-30 一种业务对象的标签标记方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN109255066A CN109255066A (zh) 2019-01-22
CN109255066B true CN109255066B (zh) 2021-11-09

Family

ID=65045480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811158013.6A Active CN109255066B (zh) 2018-09-30 2018-09-30 一种业务对象的标签标记方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN109255066B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309513B (zh) * 2019-07-09 2023-07-25 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN113011182B (zh) * 2019-12-19 2023-10-03 北京多点在线科技有限公司 一种对目标对象进行标签标注的方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577663A (zh) * 2017-08-24 2018-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108280059A (zh) * 2018-01-09 2018-07-13 武汉斗鱼网络科技有限公司 直播间内容标签提取方法、存储介质、电子设备及系统
CN108376164A (zh) * 2018-02-24 2018-08-07 武汉斗鱼网络科技有限公司 一种潜力主播的展示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577663A (zh) * 2017-08-24 2018-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108280059A (zh) * 2018-01-09 2018-07-13 武汉斗鱼网络科技有限公司 直播间内容标签提取方法、存储介质、电子设备及系统
CN108376164A (zh) * 2018-02-24 2018-08-07 武汉斗鱼网络科技有限公司 一种潜力主播的展示方法及装置

Also Published As

Publication number Publication date
CN109255066A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
US11409813B2 (en) Method and apparatus for mining general tag, server, and medium
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US10880614B2 (en) Integrated intelligent overlay for media content streams
US7475007B2 (en) Expression extraction device, expression extraction method, and recording medium
US7181683B2 (en) Method of summarizing markup-type documents automatically
US20040236566A1 (en) System and method for identifying special word usage in a document
CN106407420B (zh) 一种多媒体资源的推荐方法及系统
US20130159277A1 (en) Target based indexing of micro-blog content
JP2009043156A (ja) 番組検索装置および番組検索方法
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN109284490B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN111159546A (zh) 事件推送方法、装置、计算机可读存储介质和计算机设备
CN107885717B (zh) 一种关键词提取方法及装置
JP2012221316A (ja) 文書トピック抽出装置及び方法及びプログラム
CN109348262B (zh) 一种主播相似度的计算方法、装置、设备和存储介质
CN110019948B (zh) 用于输出信息的方法和装置
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN109255066B (zh) 一种业务对象的标签标记方法、装置、服务器和存储介质
KR20190138623A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
JP6446987B2 (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
CN113886568A (zh) 一种文本摘要的生成方法及装置
US20080168019A1 (en) Document clustering based on entity association rules
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统
CN116108181A (zh) 客户信息的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240625

Address after: Floors 4-9, Building 8, No. 9 Yuxi Road, Shunyi District, Beijing, 101300

Patentee after: Beijing Zhongying Boyu Technology Co.,Ltd.

Country or region after: China

Address before: 11 / F, building B1, phase 4.1, software industry, No.1, Software Park East Road, Wuhan East Lake Development Zone, Wuhan City, Hubei Province, 430070

Patentee before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China