CN113361272B - 一种媒资标题的概念词提取方法及装置 - Google Patents
一种媒资标题的概念词提取方法及装置 Download PDFInfo
- Publication number
- CN113361272B CN113361272B CN202110688868.5A CN202110688868A CN113361272B CN 113361272 B CN113361272 B CN 113361272B CN 202110688868 A CN202110688868 A CN 202110688868A CN 113361272 B CN113361272 B CN 113361272B
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- combination
- title
- media asset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种媒资标题的概念词提取方法及装置,方法包括:首先确定媒资标题的业务关键词。之后对媒资标题进行分词处理和词性标注处理。从词性组合库中查找与所述词性标注结果匹配的预设词性组合。最后,如果媒资标题中与预设词性组合的最后一个词性对应的词语为之前确定的业务关键词时,将媒资标题中与预设词性组合对应的词语组合,确定为该媒资标题的概念词。本申请提供的媒资标题的概念词提取方法及提取装置,能够从现有冗长的媒资标题中挖掘符合用户兴趣和认知粒度的概念词,增强对媒资标题的主题刻画,使得这些媒资标题更容易被搜索到,避免媒资资源变成无效资源。同时用户也能够搜索得到更丰富多彩的媒资资源,提升用户使用体验。
Description
技术领域
本申请涉及信息检索技术领域,尤其涉及一种媒资标题的概念词提取方法及装置。
背景技术
随着社会信息化的快速发展,人们可通过互联网获取海量的媒资资源。
用户从互联网搜索媒资的方法通常是,在客户端输入关键词,媒资平台获取关键词后,将关键词与媒资标题进行匹配。之后向用户反馈与用户输入关键词匹配媒资标题,对应的媒资资源。
然而,目前媒资平台上的媒资标题大部分都较冗长,句式复杂多样,因而大部分的媒资数据较难被检索到,导致亿万媒资数据只有较少部分能够展示给用户。这不仅造成大量媒资资源变成无效资源,无效资源增加信息检索的耗时,加剧检索计算的负担。而且用户也不能够获得丰富多样的媒资资源,造成用户搜索体验较差。
发明内容
本申请提供了一种媒资标题概念提取方法及装置,用于解决目前的媒资平台上的媒资标题大部分都较冗长,大部分的媒资数据较难被搜索到,导致亿万媒资数据只有较少部分能够展示给用户,从而不仅造成媒资资源的浪费,而且用户也不能够获得丰富多样的媒资资源,造成用户搜索体验较差的问题。
第一方面,本申请实施例提供一种媒资标题的概念词提取方法,该方法包括:
获取媒资标题,确定所述媒资标题的业务关键词,其中,所述业务关键词为预设的中心词语或者,为从句子中提取的句子中心词语;
对所述媒资标题进行分词处理和词性标注处理,得到所述媒资标题的词性标注结果,其中,所述词性标注结果为所述媒资标题的切词结果中,每个词语的词性标注结果的组合;
从词性组合库中查找与所述词性标注结果匹配的预设词性组合,其中,所述词性组合库中的所述预设词性组合,为提取现有概念词,在包含所述现有概念词的句子中,所述现有概念词所对应的词性组合片段,所述词性标注结果的局部内容包含匹配的所述预设词性组合;
在所述媒资标题中与所述预设词性组合的最后一个词性对应的词语为所述业务关键词时,将所述媒资标题中与所述预设词性组合对应的词语组合,确定为所述媒资标题的概念词。
第二方面,本申请实施例提供一种媒资标题的概念词提取装置,该装置包括:
业务关键词确定单元,用于执行:获取媒资标题,确定所述媒资标题的业务关键词,其中,所述业务关键词为预设的中心词语或者,为从句子中提取的句子中心词语;
词性标注单元,用于执行:对所述媒资标题进行分词处理和词性标注处理,得到所述媒资标题的词性标注结果,其中,所述词性标注结果为所述媒资标题的切词结果中,每个词语的词性标注结果的组合;
查找单元,用于执行:从词性组合库中查找与所述词性标注结果匹配的预设词性组合,其中,所述词性组合库中的所述预设词性组合,为提取现有概念词,在包含所述现有概念词的句子中,所述现有概念词所对应的词性组合片段,所述词性标注结果的局部内容包含匹配的所述预设词性组合;
概念词确定单元,用于执行:在所述媒资标题中与所述预设词性组合的最后一个词性对应的词语为所述业务关键词时,将所述媒资标题中与所述预设词性组合对应的词语组合,确定为所述媒资标题的概念词。
本申请提供的技术方案包括以下有益效果:首先确定媒资标题的业务关键词。之后对媒资标题进行分词处理和词性标注处理,得到媒资标题的词性标注结果。从词性组合库中查找与所述词性标注结果匹配的预设词性组合。最后,如果媒资标题中与预设词性组合的最后一个词性对应的词语为之前确定的业务关键词时,将媒资标题中与预设词性组合对应的词语组合,确定为该媒资标题的概念词。本申请提供的媒资标题的概念词提取方法及提取装置,能够从现有冗长的媒资标题中挖掘符合用户兴趣和认知粒度的概念词,增强对媒资标题的主题刻画,使得这些媒资标题更容易被搜索到,避免媒资资源变成无效资源。同时用户也能够搜索得到更丰富多彩的媒资资源,提升用户使用体验。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种媒资标题的概念词提取方法流程示意图;
图2示出了本申请实施例提供的一种媒资标题的概念词提取装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书通篇提及的″多个实施例″、″一些实施例″、″一个实施例″或″实施例″等,意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语″在多个实施例中″、″在一些实施例中″、″在至少另一个实施例中″或″在实施例中″等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、结构或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。
随着社会信息化的快速发展,人们可通过互联网获取海量的媒资资源。用户从互联网搜索媒资的方法通常是,在客户端输入关键词,媒资平台获取关键词后,将关键词与媒资标题进行匹配。之后向用户反馈与用户输入关键词匹配媒资标题,对应的媒资资源。
然而,目前媒资平台上的媒资标题大部分都较冗长,句式复杂多样,因而大部分的媒资数据较难被检索到,导致亿万媒资数据只有较少部分能够展示给用户。这不仅造成大量媒资资源变成无效资源,无效资源增加信息检索的耗时,加剧检索计算的负担。而且用户也不能够获得丰富多样的媒资资源,造成用户搜索体验较差。
示例性的,媒资标题″05年的张三主持的音乐颁奖晚会,还有李四王五″,这类的媒资标题较冗长。用户输入媒资查询内容,媒资请求内容需要经过语义引擎,语义引擎则会对媒资查询内容进行语义解析。具体的经过文本预处理、业务定位、纠错、意图槽位解析等处理过程。经过这些处理过程后,媒资查询文本已经被转化。最终经过业务处理的信息检索算法,检索出相关媒资。因此,即使输入原标题″05年的张三主持的音乐颁奖晚会,还有李四王五″的内容,检索得到的媒资资源,大概率也不会是原标题对应的媒资资源。最终导致亿万媒资数据只有较少部分能够展示给用户。
为了解决上述问题,本申请提供一种媒资标题的概念词提取方法,该方法能够从现有冗长的媒资标题中挖掘符合用户兴趣和认知粒度的概念词,增强对媒资标题的主题刻画,使得这些媒资标题更容易被搜索到,避免媒资资源变成无效资源。同时用户也能够搜索得到更丰富多彩的媒资资源,提升用户使用体验。
为方便对技术方案的阐述,下面对本申请中涉及的部分名词进行解释:
概念词,为实体或一类资源的集合名,例如爱情片、古装剧、励志歌曲、抖音神曲、附近的没事、捕蚊草的作用、神探狄仁杰的主要演员等。
分词,需要说明的是本申请涉及的实施例均为中文,分词也为对中文分词。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。例如,张三主演的电视剧,经过分词处理后得到[′张三′,′主演′,′的′,′电视剧′]。
分词算法根据实现原理和特点,主要分为两类:基于词典分词算法和基于统计的机器学习算法。
基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的″充分大的″词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
基于统计的机器学习算法目前常用的是算法是HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(conditional random field algorithm,条件随机场算法)、深度学习等算法,以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
词性标注,又称为词类标注或者简称标注,是指为分词结果中的每个词语标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。
如图1的媒资标题的概念词提取方法的流程示意图,该方法包括以下步骤:
步骤S101,确定媒资标题的业务关键词,其中,所述业务关键词为预设中心词语。
这里的媒资标题可以是从媒资平台中已上传的媒资资源中获取到的标题内容。媒资平台中的所有媒资标题都可利用本申请实施例的方法提取概念词。
业务关键词为用户预设的词,例如,电影、电视剧、小说、漫画等词语。业务关键词还可以包括概念关键词,例如,攻略、特产、方法、危害等词语。业务关键词作为挖掘概念的中心词,因此一般处于概念词的最后一个位置。
步骤S102,该步骤包括对预设处理媒资标题进行分词处理和词性标注处理两个步骤。需要说明的是,分词处理后的媒资标题至少要包括两个媒资词语。如果是只包含一个词语的媒资标题,不需要进一步进行概念词提取的步骤。
本申请可以采用LAC(Lexical Analysis of Chinese)词法分析工具,对媒资标题进行中文分词和词性标注。LAC词法分析工具是一种联合的词法分析模型,能够整体性地完成中文分词和词性标注,还可添加自定义词典,对专有名称进行识别。LAC词法分析任务的输入是一个字符串,输出的则是媒资标题中的词边界和词性。需要说明的是,本申请所使用的分词和词性标注工具不限于LAC词法分析工具,还可以使用其他的词法分析工具。
示例性的,媒资标题″张三主演的电视剧″,经过LAC词性分析工具分词处理后得到[′张三′,′主演′,′的′,′电视剧′],至少两个的媒资词语。进一步,经过LAC词性分析工具词性标注处理后,得到该媒资标题的词性标注结果[′PER′,′v′,′u′,′n′]。其中,PER为自定义词典中预设的专有名词,″张三″为人名,可以通过LAC词性分析工具得出″张三″为专有名词。′为动词,u为助词,n为名词。
通过词性标注,媒资标题的局部序列可能符合″AB″或者″A的B″等形式。其中,A和B可以均为名词,或者,A为形容词B为名词。这种形式即为概念词的雏形。需要说明的是,在概念词中,B不能包含A,A不能为B中的实体。例如,你若安好便是晴天电视剧,则不能作为概念词。
步骤S103,从词性组合库中查找与所述词性标注结果匹配的预设词性组合。需要说明的是,本申请实施例中的词性组合库中预设词性组合,为提取现有概念词,在包含所述现有概念词的句子中,所述现有概念词所对应的词性组合片段。这些现有的概念词可以是媒资平台上现有的,用户常用的媒资标题。
例如,寡姐的独立电影,经过分词和词性标注处理后,得到的词性标注结果[′n′,′u′,′a′,′n′]。藏族广场舞,经过分词和词性标注处理后,得到的词性标注结果[′nz′,′n′]。这些词性标注结果为用户常用的,因而符合用户的兴趣和认知粒度。将这些现有的词性标注结果作为预设词性组合去匹配待提取概念词的词性标注结果,最后获得概念词同样能够符合用户的兴趣和认知粒度。
在一些实施例中,词性标注结果的局部内容能够完全包含匹配的预设词性组合。
具体的,LAC词性分析工具对媒资标题切词处理后,得到切词结果word_list。对切词结果进行词性标注处理后,得到tags_list。词性标注结果格式为(word_list,tags_list)。词性组合库中的预设词性完全包含在tags_list中,则为确定的需要查找的预设词性组合。
示例性的,媒资标题″05年的张三主持的晚会,还有李四王五″经过分词处理后词语组合[′05年′,′的′,′张三′,′主持′,′的′,′晚会′,′还有′,′李四′,′王五′]。对该词语组合再进行词性标注处理得到词性标注结果[′m′,′u′,′PER′,′v′,′u′,′n′,′ad′,′n′,′n′]。该词性标注结果能够完全包含预设词性组合[′PER′,′V′,′u′,′n′],因此,预设词性组合[′PER′,′V′,′u′,′n′]为确定的需要查找的预设词性组合。
需要说明的是,从媒资标题的词性标注结果中提取的组合片段为连续的片段,例如,上述实施例中提取的片段[′PER′,′V′,′u′,′n′]即为在媒资标题的词性标注结果中连续的片段。而片段[′PER′,′u′,′n′]则不为连续的片段,不可作为判断词性标注结果和预设词性组合是否匹配的片段。
步骤S104,按照步骤S103得到的匹配的预设词性组合之后,判断媒资标题中与确定的预设词性组合的最后一个词性对应的词语是否为步骤S101确定的业务关键词。
如果媒资标题中与确定的预设词性组合的最后一个词性对应的词语为步骤S101确定的业务关键词,将媒资标题中与得到的预设词性组合对应的媒资词语组合作为该媒资标题的概念词。需要说明的是,这里的媒资词语组合也为连续的片段。
如果媒资标题中与确定的预设词性组合的最后一个词性对应的词语不为步骤S101确定的业务关键词,则重新确定预设词性组合。
示例性的,在上述实施例中,得到媒资标题″05年的张三主持的晚会,还有李四王五的预设词性组合为[′PER′,′v′,′u′,′n′]。媒资标题″05年的张三主持的晚会,还有李四王五与该预设词性组合[′PER′,′v′,′u′,′n′]对应的词语组合为张三主持的晚会。该词语组合即为媒资标题″05年的张三主持的晚会,还有李四王五的概念词。
在一些实施例中,确定媒资标题的业务关键词时,方法具体包括:
首先根据预设中心词语确定媒资标题的初选业务关键词。
利用依存句法确定初选关键词是否为复合名称中的修饰词,如果初选关键词为复合名词中的修饰词,则将复合名词中的被修饰词确定为最终的业务关键词。
如果初选关键词不为复合名词中的修饰词,则将该初选业务关键词确定为最终的业务关键词。
在依存句法中,概念词常符合定中关系、复合名词关系以及修饰关系形式。例如,″爱情电影″为复合名词关系,依存句法分析结果为(ROOT(NP(NN爱情)(NN电影)))[(′ROOT′,0,2),(′compound:nn′,2,1)]。1和2分别表示复合名词中爱情和电影在概念词中的位置。″神探狄仁杰的主演″修饰关系,其依存句法分析结果:[nmod:assmod(主演-3,神探狄仁杰-1),case(神探狄仁杰-1,的-2),root(ROOT-0,主演-3)]。
在一些实施例中,如果通过依存句法分析发现业务关键词为复合名词中的修饰名词,则将复合名词中的被修饰名词作为新的业务关键词。
示例性的,媒资标题″05年的张三主持的音乐颁奖晚会,还有李四王五″利用依存句法分析结果为[(′ROOT′,0,12),(′nmod′,3,1),(′case′,1,2),(′nsubj′,4,3),(′acl′,8,4),(′mark′,4,5),(′compound:nn′,8,6),(′compound:nn′,8,7),(′dep′,12,8),(′punct′,12,9),(′dep′,12,10),(′dep′,12,11)]。其中,(′compound:nn′,8,6)表示,句子中的第6个词″音乐″修饰句子中的第8个词″晚会″。虽然按照上述方法,得到业务关键词为″音乐″。但是,通过依存句法分析得出业务关键词″音乐″是复合名词中的修饰名词,不能作为概念词的核心词。因此,将复合名词″音乐晚会″中被修饰的名词″晚会″作为最终确定的业务关键词。
利用步骤S101至步骤S104的方法对表1中间列的媒资标题可以对应得到表1右侧列的概念词,表1的左侧列为词性组合库中的部分预设词性组合:
表1媒资标题的概念词提取示例
在一些实施例中,如果遍历词性组合库中的预设词性组合之后,得到的与词性标注结果匹配的预设词性组合为多个,则将其中最长的预设词性组合作为最终与词性标注结果匹配的组合。这样,得到的概念词能够具有更多的词汇信息,展示给用户搜索结果的粒度更细,能更加准确的反映媒资的主题信息。
示例性的,如果匹配到两个预设词性组合[′PER′,′v′,′u′,′n′]和[′v′,′u′,′n′],则取最长的预设词性组合[′PER′,′v′,′u′,′n′]作为与该媒资标题的词性标注结果最终匹配的词性组合。
在一些实施例中,概念词的首个词语不可为范围不确定的模糊词,例如,″部分″,″不少″,″国″,″是″,″台″,也不可为数量词″大″。这样可以避免得到的概念词不符合用户常规认知和标准的句法。
在一些实施例中,如果仅根据词性组合匹配挖掘媒资标题的概念词,可能会引入噪音。例如,媒资标题[′歌′,′好听′,′舞′,′好看′],词性标注后得到词性标注结果[′n′,′a′,′n′,′a′]。将词性标注结果[′n′,′a′,′n′,′a′]与词性组合库中的预设词性组合匹配,得到对应的概念词为[′好听′,′舞′]。这种概念词也不符合用户常规认知和标准的句法。
因此,对于部分预设词性组合,在从词性组合库中查找到的与词性标注结果匹配的预设词性组合为名词、形容词以及名词,且媒资标题中与预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将该预设词性组合确定为最终与词性标注结果匹配的组合。即在匹配时,如果得到的预设词性组合[′n′,′a′,′n′],则在词性标注结果中对应的下一个词性不能为″a″。
同样的,在从词性组合库中查找到的与词性标注结果匹配的预设词性组合为形容词和名词,且媒资标题中与预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将该预设词性组合确定为最终与词性标注结果匹配的组合。如果得到的预设词性组合[′a′,′n′],则在词性标注结果中对应的下一个词性不能为″a″。
需要说明的是,在确定平台上媒资标题的概念词后,可以根据用户常观看的媒资标题的概念词,来了解用户近期的偏好,从而实现为用户个性化推荐媒资资源的效果。例如,用户近期频繁观看广场舞相关的媒资资源,相对应的媒资标题的概念则为广场舞。则系统可为用户推荐概念词为广场舞相关的媒资资源。
另外需要说明的是,基于上述的概念挖掘算法,还可以对用户的意图进行解析,确定与用户意图对应的概念词,进一步根据用户意图对应的概念词进行检索。从而使得检索范围更加精确,还能够提高检索效率,减轻计算压力。同时,使得更多的媒资资源有机会被检索到。
本申请实施例提供一种媒资标题的概念词提取装置,用于执行图1对应的实施例,如图2所示,本申请提供的媒资标题的概念词提取装置包括:
业务关键词确定单元201,用于执行:获取媒资标题,确定所述媒资标题的业务关键词,其中,所述业务关键词为预设中心词语;
词性标注单元202,用于执行:对所述媒资标题进行分词处理和词性标注处理,得到所述媒资标题的词性标注结果,其中,所述词性标注结果为所述媒资标题的切词结果中,每个词语的词性标注结果的组合;
查找单元203,用于执行:根据所述词性标注结果,从词性组合库中查找预设词性组合,其中,所述词性组合库中的所述预设词性组合为提取现有概念词,在包含所述现有概念词的句子中对应的词性组合片段,所述词性标注结果的局部内容完全包含所述预设词性组合;
概念词确定单元204,用于执行:在所述媒资标题中与所述预设词性组合的最后一个词性对应的词语为所述业务关键词时,将所述媒资标题中与所述预设词性组合对应的词语组合,确定为所述媒资标题的概念词。
在一些实施例中,业务关键词确定单元201,具体用于执行:根据所述预设中心词语确定所述媒资标题的初选业务关键词;
在利用依存句法确定所述初选业务关键词为复合名词中的修饰词时,将所述复合名词中的被修饰词确定为最终的业务关键词;
在利用依存句法确定所述初选业务关键词不为复合名词中的修饰词时,将所述初选业务关键词确定为最终的业务关键词。
在一些实施例中,所述查找单元203,还用于执行:在从所述词性组合库中查找到多个与所述词性标注结果匹配的预设词性组合时,将长度最长的所述预设词性组合作为最终与所述词性标注结果匹配的组合。
以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的,当然不可能描述组件或方法的每一个可设想组合,但是要意识到,本创新的许多另外组合和置换是可能的。相应地,要求保护主题打算包含全部这类改变、修改和变化,其落入所附权利要求的精神和范围之内。此外,包括″摘要″中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例,但是如相关领域的技术人员能够认识的,被认为在这类实现和示例的范围之内的各种修改是可能的。
此外,词语″示例″或″示范″在本申请中用来表示″用作示例、实例或说明″。本申请中描述为″示范″的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反,词语″示例″或″示范″的使用打算以具体方式呈现概念。
Claims (10)
1.一种媒资标题的概念词提取方法,其特征在于,包括:
获取媒资标题,确定所述媒资标题的业务关键词,其中,所述业务关键词为预设的中心词语,或者为从句子中提取的句子中心词语;
对所述媒资标题进行分词处理和词性标注处理,得到所述媒资标题的词性标注结果,其中,所述词性标注结果为所述媒资标题的切词结果中,每个词语的词性标注结果的组合,分词处理后的所述媒资标题至少包括两个媒资词语;
从词性组合库中查找与所述词性标注结果匹配的预设词性组合,其中,所述词性组合库中的所述预设词性组合,为提取现有概念词,在包含所述现有概念词的句子中,所述现有概念词所对应的词性组合片段,所述词性标注结果的局部内容包含匹配的所述预设词性组合;
在所述媒资标题中与所述预设词性组合的最后一个词性对应的词语为所述业务关键词时,将所述媒资标题中与所述预设词性组合对应的词语组合,确定为所述媒资标题的概念词。
2.根据权利要求1所述的媒资标题的概念词提取方法,其特征在于,在确定所述媒资标题的业务关键词时,所述方法具体包括:
根据所述预设中心词语确定所述媒资标题的初选业务关键词;
在利用依存句法确定所述初选业务关键词为复合名词中的修饰词时,将所述复合名词中的被修饰词确定为最终的业务关键词;
在利用依存句法确定所述初选业务关键词不为复合名词中的修饰词时,将所述初选业务关键词确定为最终的业务关键词。
3.根据权利要求1所述的媒资标题的概念词提取方法,其特征在于,所述方法还包括:
在从所述词性组合库中查找到多个与所述词性标注结果匹配的预设词性组合时,将长度最长的所述预设词性组合作为最终与所述词性标注结果匹配的组合。
4.根据权利要求1所述的媒资标题的概念词提取方法,其特征在于,在从所述词性组合库中查找到的与所述词性标注结果匹配的预设词性组合为名词、形容词以及名词,且所述媒资标题中与所述预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将所述预设词性组合确定为最终与所述词性标注结果匹配的组合。
5.根据权利要求1所述的媒资标题的概念词提取方法,其特征在于,在从所述词性组合库中查找到的与所述词性标注结果匹配的预设词性组合为形容词和名词,且所述媒资标题中与所述预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将所述预设词性组合确定为最终与所述词性标注结果匹配的组合。
6.一种媒资标题的概念词提取装置,其特征在于,包括:
业务关键词确定单元,用于执行:获取媒资标题,确定所述媒资标题的业务关键词,其中,所述业务关键词为预设的中心词语,或者为从句子中提取的句子中心词语;
词性标注单元,用于执行:对所述媒资标题进行分词处理和词性标注处理,得到所述媒资标题的词性标注结果,其中,所述词性标注结果为所述媒资标题的切词结果中,每个词语的词性标注结果的组合,分词处理后的所述媒资标题至少包括两个媒资词语;
查找单元,用于执行:从词性组合库中查找与所述词性标注结果匹配的预设词性组合,其中,所述词性组合库中的所述预设词性组合,为提取现有概念词,在包含所述现有概念词的句子中,所述现有概念词所对应的词性组合片段,所述词性标注结果的局部内容包含匹配的所述预设词性组合;
概念词确定单元,用于执行:在所述媒资标题中与所述预设词性组合的最后一个词性对应的词语为所述业务关键词时,将所述媒资标题中与所述预设词性组合对应的词语组合,确定为所述媒资标题的概念词。
7.根据权利要求6所述的媒资标题的概念词提取装置,其特征在于,所述业务关键词确定单元,具体用于执行:
根据所述预设中心词语确定所述媒资标题的初选业务关键词;
在利用依存句法确定所述初选业务关键词为复合名词中的修饰词时,将所述复合名词中的被修饰词确定为最终的业务关键词;
在利用依存句法确定所述初选业务关键词不为复合名词中的修饰词时,将所述初选业务关键词确定为最终的业务关键词。
8.根据权利要求6所述的媒资标题的概念词提取装置,其特征在于,所述查找单元,还用于执行:在从所述词性组合库中查找到多个与所述词性标注结果匹配的预设词性组合时,将长度最长的所述预设词性组合作为最终与所述词性标注结果匹配的组合。
9.根据权利要求6所述的媒资标题的概念词提取装置,其特征在于,所述查找单元,还用于执行:在从所述词性组合库中查找到的与所述词性标注结果匹配的预设词性组合为名词、形容词以及名词,且所述媒资标题中与所述预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将所述预设词性组合确定为最终与所述词性标注结果匹配的组合。
10.根据权利要求6所述的媒资标题的概念词提取装置,其特征在于,所述查找单元,还用于执行:在从所述词性组合库中查找到的与所述词性标注结果匹配的预设词性组合为形容词和名词,且所述媒资标题中与所述预设词性组合的最后一个词性对应的词语的下一词语的词性为形容词时,不将所述预设词性组合确定为最终与所述词性标注结果匹配的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688868.5A CN113361272B (zh) | 2021-06-22 | 2021-06-22 | 一种媒资标题的概念词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688868.5A CN113361272B (zh) | 2021-06-22 | 2021-06-22 | 一种媒资标题的概念词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361272A CN113361272A (zh) | 2021-09-07 |
CN113361272B true CN113361272B (zh) | 2023-03-21 |
Family
ID=77535507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110688868.5A Active CN113361272B (zh) | 2021-06-22 | 2021-06-22 | 一种媒资标题的概念词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361272B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN110019738A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种搜索词的处理方法、装置及计算机可读存储介质 |
CN112199958A (zh) * | 2020-09-30 | 2021-01-08 | 平安科技(深圳)有限公司 | 概念词序列生成方法、装置、计算机设备及存储介质 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064838B (zh) * | 2011-10-19 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN108009155A (zh) * | 2017-12-22 | 2018-05-08 | 联想(北京)有限公司 | 数据处理方法及系统和服务器 |
CN109977397B (zh) * | 2019-02-18 | 2022-11-15 | 广州市诚毅科技软件开发有限公司 | 基于词性组合的新闻热点提取方法、系统及存储介质 |
CN111309970A (zh) * | 2020-03-27 | 2020-06-19 | 北京奇艺世纪科技有限公司 | 一种数据检索方法、装置、电子设备及存储介质 |
CN111522863B (zh) * | 2020-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
-
2021
- 2021-06-22 CN CN202110688868.5A patent/CN113361272B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN110019738A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种搜索词的处理方法、装置及计算机可读存储介质 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN112199958A (zh) * | 2020-09-30 | 2021-01-08 | 平安科技(深圳)有限公司 | 概念词序列生成方法、装置、计算机设备及存储介质 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113361272A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636146B2 (en) | Content analysis to enhance voice search | |
US7949514B2 (en) | Method for building parallel corpora | |
US20180107636A1 (en) | Method and apparatus for establishing sentence editing model, sentence editing method and apparatus | |
US20100287162A1 (en) | method and system for text summarization and summary based query answering | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
KR102075505B1 (ko) | 핵심 키워드 추출 방법 및 시스템 | |
US8515731B1 (en) | Synonym verification | |
CN101546587A (zh) | 在播放歌曲时自动显示视觉元素的方法和装置 | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Alex | Automatic detection of English inclusions in mixed-lingual data with an application to parsing | |
Marujo et al. | Key phrase extraction of lightly filtered broadcast news | |
KR20120071194A (ko) | 사용자 리뷰를 이용한 컨텐츠 추천 장치 및 그 방법 | |
CN113361272B (zh) | 一种媒资标题的概念词提取方法及装置 | |
Dominguès et al. | Toponym recognition in custom-made map titles | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
CN111046168A (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
US20130080145A1 (en) | Natural language processing apparatus, natural language processing method and computer program product for natural language processing | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP6530002B2 (ja) | コンテンツ探索装置、コンテンツ探索方法、プログラム | |
CN110853647A (zh) | 一种视频搜索方法、视频播放终端及存储介质 | |
CN112182153B (zh) | 一种阅读内容主题重组框架生成方法及装置 | |
US20220318283A1 (en) | Query correction based on reattempts learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |