CN113407739B - 信息标题中概念的确定方法、装置和存储介质 - Google Patents
信息标题中概念的确定方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113407739B CN113407739B CN202110796744.9A CN202110796744A CN113407739B CN 113407739 B CN113407739 B CN 113407739B CN 202110796744 A CN202110796744 A CN 202110796744A CN 113407739 B CN113407739 B CN 113407739B
- Authority
- CN
- China
- Prior art keywords
- preset
- dependency
- keyword
- word
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000004458 analytical method Methods 0.000 claims abstract description 67
- 239000002131 composite material Substances 0.000 claims abstract description 4
- 150000001875 compounds Chemical class 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 51
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 26
- 230000001419 dependent effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 19
- 239000013589 supplement Substances 0.000 description 13
- 239000003607 modifier Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 241000234282 Allium Species 0.000 description 5
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 5
- 230000009471 action Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 206010002153 Anal fissure Diseases 0.000 description 4
- 208000016583 Anus disease Diseases 0.000 description 4
- 208000009531 Fissure in Ano Diseases 0.000 description 4
- 208000007882 Gastritis Diseases 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 235000021152 breakfast Nutrition 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005187 foaming Methods 0.000 description 3
- 239000003292 glue Substances 0.000 description 3
- 235000015277 pork Nutrition 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 230000035900 sweating Effects 0.000 description 3
- 241000287828 Gallus gallus Species 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 229910021538 borax Inorganic materials 0.000 description 2
- 230000001684 chronic effect Effects 0.000 description 2
- 208000023652 chronic gastritis Diseases 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004328 sodium tetraborate Substances 0.000 description 2
- 235000010339 sodium tetraborate Nutrition 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 241000255925 Diptera Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 101000801619 Homo sapiens Long-chain-fatty-acid-CoA ligase ACSBG1 Proteins 0.000 description 1
- 240000008415 Lactuca sativa Species 0.000 description 1
- 102100033564 Long-chain-fatty-acid-CoA ligase ACSBG1 Human genes 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000010634 bubble gum Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003755 preservative agent Substances 0.000 description 1
- 230000002335 preservative effect Effects 0.000 description 1
- 235000012045 salad Nutrition 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 235000012033 vegetable salad Nutrition 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种信息标题中概念的确定方法、装置和存储介质,通过对信息标题进行依存句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词;若预设关键词不为复合名词中的依存词,则根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词;根据预设关键词和关键词,建立关键词列表;根据信息标题中的词顺序,将关键词列表中的词组合形成概念。本申请提供的技术方案对依存句法分析结果进行处理,能够将信息标题中的关键词形成概念,使得在根据信息的概念进行信息检索时,增加了信息被检索到的概率。
Description
技术领域
本申请涉及自然语言理解技术。更具体地讲,涉及一种信息标题中概念的确定方法、装置和存储介质。
背景技术
随着互联网的不断发展,用户可以通过电子设备获取需求的信息,例如,通过用户直接查询的方式获取信息,或者接收客户端推送的信息。
目前,由于信息的标题与信息的内容相关,因此,在获取信息时,通常需要对信息的标题进行检索,确定需要获取的信息。但是,信息的标题各种各样,可能存在冗长而复杂的信息标题,使得信息标题中的信息点过多,导致这样的信息被检索到的概率较低。
发明内容
本申请实施例提供了一种信息标题中概念的确定方法、装置和存储介质,能够将信息标题中的关键词组合形成信息的概念,使用概念辅助检索,可以提高子信息被检索到的概率。
第一方面,本申请实施例提供了一种信息标题中概念的确定方法,包括:
对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法分析结果包括至少两个元组,所述元组包括依存关系、核心词以及依存词。
若预设关键词不为复合名词中的依存词,则根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词。
根据所述预设关键词和所述关键词,建立关键词列表。
根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念。
在一些可能的实现方式中,所述根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词,包括:
根据所述预设关键词,在所述依存句法分析结果中确定目标元组,所述目标元组中的核心词为所述预设关键词;若所述目标元组对应的依存关系满足第一预设依存关系,则获取所述目标元组中的依存词。
将所述目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个所述预设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存词为所述第二预设依存关系对应的核心词。
根据所述目标元组中的依存词,确定所述至少一个关键词。
在一些可能的实现方式中,所述根据所述预设关键词和所述关键词,建立关键词列表,包括:
根据所述预设关键词和所述关键词,建立初始关键词列表。
对所述初始关键词列表中的词进行去重处理,确定关键词列表。
在一些可能的实现方式中,在所述确定所述信息标题的至少一个关键词之后,所述方法还包括:
判断所述预设关键词(本申请中,所述预设关键词为初始的预设关键词,并非根据目标元组中的依存词确定的新的预设关键词)所在的元组对应的依存关系是否为直接宾语。
若所述预设关键词所在的元组对应的依存关系为所述直接宾语,则根据所述预设关键词所在的元组中的核心词,确定补充关键词。
在一些可能的实现方式中,所述根据所述预设关键词所在的元组中的核心词,确定至少一个补充关键词,包括:
判断所述预设关键词所在的元组中的核心词是否为预设谓语动词。
若所述预设关键词所在的元组中的核心词是预设谓语动词,则根据所述预设关键词所在的元组中的核心词,在所述依存句法分析结果中确定补充元组,所述补充元组中的核心词为所述预设关键词所在的元组中的核心词。
若所述补充元组对应的依存关系满足补充预设依存关系,且所述补充元组中的依存词在所述信息标题中处于所述补充元组中的核心词的前边,则将所述补充元组中的依存词确定为补充关键词。
在一些可能的实现方式中,所述方法还包括:
若所述预设关键词所在的元组中的核心词不是预设谓语动词,且在所述信息标题中与所述补充元组中的核心词相邻的下一个词语在所述关键词列表中,则对所述补充元组中的核心词和所述相邻的下一个词进行切词处理,生成切词处理结果。
若所述切词处理结果所述补充元组中的核心词和所述相邻的下一个构成了一个词,则将所述补充元组中的核心词确定为补充关键词。
在一些可能的实现方式中,所述方法还包括:
若所述预设关键词所在的元组中的核心词为名动词,则将所述预设关键词所在的元组中的核心词确定为补充关键词。
第二方面,本申请实施例提供了一种信息标题中概念的确定装置,包括:
分析模块,用于对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法分析结果包括至少两个元组,所述元组包括依存关系、核心词以及依存词。
处理模块,用于在预设关键词不为复合名词中的依存词时,根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词。
所述处理模块,还用于根据所述预设关键词和所述关键词,建立关键词列表。
确定模块用于根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念。
在一些可能的实现方式中,所述处理模块,具体用于根据所述预设关键词,在所述依存句法分析结果中确定目标元组,所述目标元组中的核心词为所述预设关键词;若所述目标元组对应的依存关系满足第一预设依存关系,则获取所述目标元组中的依存词。将所述目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个所述预设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存词为所述第二预设依存关系对应的核心词。并根据所述目标元组中的依存词,确定所述至少一个关键词。
在一些可能的实现方式中,所述处理模块,具体用于根据所述预设关键词和所述关键词,建立初始关键词列表;并对所述初始关键词列表中的词进行去重处理,确定关键词列表。
在一些可能的实现方式中,所述装置还包括补充模块,所述补充模块,用于判断所述预设关键词所在的元组对应的依存关系是否为直接宾语;在所述预设关键词所在的元组对应的依存关系为所述直接宾语时,根据所述预设关键词所在的元组中的核心词,确定补充关键词。
在一些可能的实现方式中,所述补充模块,具体用于判断所述预设关键词所在的元组中的核心词是否为预设谓语动词;在所述预设关键词所在的元组中的核心词是预设谓语动词时,根据所述预设关键词所在的元组中的核心词,在所述依存句法分析结果中确定补充元组,所述补充元组中的核心词为所述预设关键词所在的元组中的核心词。在所述补充元组对应的依存关系满足补充预设依存关系,且所述补充元组中的依存词在所述信息标题中处于所述补充元组中的核心词的前边时,将所述补充元组中的依存词确定为补充关键词。
在一些可能的实现方式中,所述补充模块,具体用于在所述预设关键词所在的元组中的核心词不是预设谓语动词,且在所述信息标题中与所述补充元组中的核心词相邻的下一个词语在所述关键词列表中时,对所述补充元组中的核心词和所述相邻的下一个词进行切词处理,生成切词处理结果。在所述切词处理结果所述补充元组中的核心词和所述相邻的下一个构成了一个词时,将所述补充元组中的核心词确定为补充关键词。
在一些可能的实现方式中,所述补充模块,具体用于在所述预设关键词所在的元组中的核心词为名动词时,将所述预设关键词所在的元组中的核心词确定为补充关键词。
第三方面,本申请实施例还提供了一种信息标题中概念的确定装置,该信息标题中概念的确定装置可以包括存储器和处理器;其中,
所述存储器,用于存储计算机程序。
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序实现如本申请第一方面所述的任一信息标题中概念的确定方法。
第四方面,本申请实施例还提供了一种计算机非易失性可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第一方面所述的任一信息标题中概念的确定方法。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本申请第一方面所述的任一信息标题中概念的确定方法。
本申请提供了一种信息标题中概念的确定方法、装置和存储介质,通过对信息标题进行依存句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词;若预设关键词不为复合名词中的依存词,则根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词;根据预设关键词和关键词,建立关键词列表;根据信息标题中的词顺序,将关键词列表中的词组合形成概念。本申请提供的技术方案通过对依存句法分析结果进行处理,将信息标题中的关键词形成概念,使得能够根据信息的概念检索出标题冗长而复杂的信息,从而提高了信息被检索到的概率。
本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息标题中概念的确定方法的应用场景示意图;
图2为本申请实施例提供的一种信息标题中概念的确定方法的流程示意图;
图3a为本申请实施例提供的一种依存关系树形示意图;
图3b为本申请实施例提供的一种切词位置编号的树形示意图;
图3c为本申请实施例提供的一种信息标题中的词语的树形示意图;
图4a为本申请实施例提供的另一种依存关系树形示意图;
图4b为本申请实施例提供的再一种依存关系树形示意图;
图5为本申请实施例提供的一种候选单词列表中各个词的依存关系树形示意图;
图6为本申请实施例提供的一种确定补充关键词的方法的流程示意图;
图7为本申请实施例提供的一种视频标题中概念的确定方法的流程示意图;
图8为本申请实施例提供的一种确定视频概念的方法的流程图示意图;
图9为本申请实施例提供的一种信息标题中概念的确定装置的结构示意图;
图10为本申请实施例提供的另一种信息标题中概念的确定装置的结构示意图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
此外,术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语″模块″,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请实施例提供的技术方案可以应用于自然语言的解析场景中。例如,在进行人机交互时,图1为本申请实施例提供的一种信息标题中概念的确定方法的应用场景示意图,其中,用户可以对着控制装置101说出希望显示设备102执行的指令,显示设备102可以通过控制装置实时采集用户的语音数据,并通过显示设备102中的控制器对语音数据中包括的用户的指令进行识别,并在识别出用户的指令后,直接执行该指令,在整个过程中,用户没有实际对显示设备102进行实际操作,只是简单地说出了指令。其中,控制装置101可以是遥控器,遥控器和显示设备102的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备102。
例如,用户可以对着控制装置101说″播放足球比赛视频″,或者″宫保鸡丁的做法″等语音,显示设备102接收用户输入的语音,并通过控制器对语音进行语义解析,并通过检索算法在视频库中检索出与用户输入的语言相对应的视频资源,从而通过显示设备102显示检索到的视频资源。其中,对接收的语音进行处理可以为降噪处理,文本预处理,业务定位,纠错,意图槽位解析等,本申请实施例对于处理方式不做具体限定。
示例性的,用户可以通过控制装置101直接在显示设备102上输入文本信息。例如,用户通过遥控器在显示设备102上输入″蔬菜沙拉的做法″或者″新闻联播″等文本信息。显示设备102中的控制器根据用户输入的文本信息在视频库中检索对应的视频资源,并通过显示设备102显示检索到的视频资源。
在本申请提供的另一种应用场景中,显示设备102可以根据用户在一段时间内的对视频资源的搜索记录,为用户推送相应的视频资源。
在上述应用场景中,由于用户的说法和媒资标题句式千奇百怪,这给语义解析和媒资检索带来挑战。
由于,媒资标题冗长,句式多样,因此,信息检索时,这些标题很难被检索到。亿万媒资数据中,只有0.1%的信息能够有机会出现在用户面前其他媒资几乎永远不能被检索到。这不仅造成资源浪费,也增加了信息检索的耗时,并加剧了服务器计算的负担。
实际测试发现,即使是用户照着这些标题在电视前读,电视也不会返回这些标题的媒资。因为经过语义引擎对用户请求进行语义解析(文本预处理,业务定位,纠错,意图槽位解析)时,对媒资进行查询的文本已经被转化,最终经过业务处理的信息检索算法,检索出的媒资已经不会是用户读的标题的媒资。最终导致只有少量的媒资会被频繁检索出,其它大量媒资被检索出的概率微小。
为了解决由于信息标题冗长而复杂,导致信息被检索到的概率较低的问题,可以对信息的标题进行依存句法分析,根据依存句法分析结果在信息的标题中确定多个关键词,并将关键词组合形成概念。信息对应的概念与信息的标题相比较为简短,且能够准确的表达出信息的含义,使得在根据信息的概念进行检索时,能够提高信息被检索到的概率。
示例性的,依存句法分析的作用是识别句子中词汇与词汇之间的相互依存关系。在依存句法理论中,″依存″指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系具有方向。确切的说,处于支配地位的成分称之为支配者(governor,regent,head),而处于被支配地位的成分称之为从属者(modifier,subordinate,dependency)。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词,分别是核心词(head)和依存词(dependent)。
其中,依存句法解析dependency_parse结果列表中包含的每一个元组都是一个依存关系连接两个词。元组内包含三个元素,第一个元素是满足的依存关系,第二个元素是核心词,第三个元素是依存词。
示例性的,概念是一个信息或实体的集合,例如,爱情片、古装剧、励志歌曲、抖音神曲、附近的美食、捕蚊草的作用、A演的小品、某电视剧的主要演员等,本申请实施例对此不做任何限定。
下面,将通过具体的实施例对本申请提供的信息标题中概念的确定方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的一种信息标题中概念的确定方法的流程示意图。该信息标题中概念的确定方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为信息标题中概念的确定装置,该信息标题中概念的确定装置可以为终端或者终端中的处理芯片。示例性的,请参见图2所示,该信息标题中概念的确定方法可以包括:
S201、对信息标题进行依存句法分析,确定依存句法分析结果。
其中,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词。
示例性的,依存关系可以包括:复合名词修饰nmod(noun compound modifier),如(浦东,上海);关联修饰assmod(associative modifier),如NP|QP(教训,特区);名词组合形式nn:noun compound modifier;形容词修饰amod(adjetive modifier),如(情况,新);名词主语nsubj:nominal subject;直接宾语dobj,如(颁布,文件);否定修饰neg(negativemodifier),如(遇到,不);状语advmod:adverbial modifier;依赖关系dep:dependent等,本申请仅以上述依存关系为例进行说明,但并不代表本申请实施例仅局限于此。
例如,对信息标题″05年的A主持的音乐颁奖晚会,还有BC′′进行依存句法分析,可以得到,切词结果为word_tokenize[′05年′,′的′,′A′,′主持′,′的′,′音乐′,′颁奖′,′晚会′,′,′,′还有′,′B′,′C′]。其中,A、B、C分别表示不同的人物姓名。该信息标题的依存句法分析结果可以为dependency_parse:[(′ROOT′,0,12),(′nmod′,3,1),(′case′,1,2),(′nsubj′,4,3),(′acl′,8,4),(′mark′,4,5),(′compound:nn′,8,6),(′compound:nn′,8,7),(′dep′,12,8),(′punct′,12,9),(′dep′,12,10),(′dep′,12,11)],
示例性的,该信息标题的依存句法分析结果还可以通过下述方式表示:
示例性的,在确定依存句法分析结果之后,可以判断依存句法分析结果中是否包含预设关键词。若依存句法分析结果中不包含预设关键词,则不需要对该信息标题进行处理;若依存句法分析结果中包含预设关键词,则判断预设关键词是否为复合名词中的依存词,若预设关键词不为复合名词中的依存词,则执行下述S202:
S202、若预设关键词不为复合名词中的依存词,则根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词。
示例性的,预设关键词可以为电影、电视剧、小说、漫画、动漫、食谱、菜谱、应用程序、动画片、症状、攻略、特产、方法、危害、表现、功效、配方、副作用等。本申请仅以上述预设关键词为例进行说明,但并不代表本申请实施例仅局限于此。
示例性的,构成复合名词(名词组合形式)中的两个名词,一个是修饰名词,即一个是依存词,另一个是中心名词,即核心词。
在根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词时,可以根据预设关键词,在依存句法分析结果中确定目标元组,目标元组中的核心词为预设关键词;若目标元组对应的依存关系满足第一预设依存关系,则获取目标元组中的依存词。将目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个完整的预设依存关系序列由多个预设依存关系组成序列中相邻的两个预设依存关系之间具有隶属关系,其中,第一预设依存关系对应的依存词为第二预设依存关系对应的核心词;根据目标元组中的依存词,确定至少一个关键词。
示例性的,完整的预设依存关系序列可能为第一预设依存关系,也可能为第一预设依存关系和第二预设依存关系的组合,也可能为第一预设依存关系、第二预设依存关系和第三预设依存关系的组合的关系,本申请实施例对于完整的预设依存关系序列中预设依存关系的数量不做任何限定。
例如,完整的预设依存关系序列为:第一预设依存关系′nmod:assmod′;第一预设依存关系′compound:nn′;第一预设依存关系′dobj′;第一预设依存关系′amod′;第一预设依存关系′nmod′;第一预设依存关系′nmod:assmod′+第二依存关系′compound:nn′;第一预设依存关系′nmod:assmod′+第二预设依存关系′amod′;第一预设依存关系′nmod:assmod′+第二预设依存关系′amod′;第一预设依存关系′amod′+第二预设依存关系′nsubj′;第一预设依存关系′compound:nn′+第二预设依存关系′compound:nn′;预设一阶依存关系′compound:nn′+二阶依存关系′nmod:assmod′;预设一阶依存关系′dobj′+二阶依存关系′nsubj′;预设一阶依存关系′compound:nn′+二阶依存关系′nmod′;第一预设依存关系′compound:nn′+第二预设依存关系′amod′;第一预设依存关系′compound:nn′+第二预设依存关系′advmod′;第一预设依存关系′dobj′+第二预设依存关系′nsubj′;第一预设依存关系′nmod′+第二预设依存关系′nmod:assmod′;第一预设依存关系′amod′+第二预设依存关系′neg′。其中,在上述完整的预设依存关系序列中,相邻两个预设依存关系之间具有隶属关系,即第二预设依存关系隶属于第一预设依存关系。
可以理解的是,在根据目标元组中的依存词,确定至少一个关键词时,由于完整的预设依存关系序列中预设依存关系的数量不同,因此确定的关键词的数量也不相同。例如,完整的预设依存关系序列中包含第一预设依存关系和第二预设关系,则根据上述的方法,可以确定两个关键词。
在本申请实施例中,可以根据预设关键词以及预设依存关系,确定至少一个目标元组,将每一个目标元组中的依存词确定为关键词,且每个目标元组均满足对应的预设依存关系,使得确定的关键词更加准确,同时能够在信息标题中保留与信息关联性较高的关键词。
S203、根据预设关键词和关键词,建立关键词列表。
在根据预设关键词和关键词,建立关键词列表时,可以根据预设关键词和关键词,建立初始关键词列表;对初始关键词列表中的词进行去重处理,确定关键词列表。
在本申请实施例中,通过对初始关键词列表中的词进行去重处理,能够保证关键词列表中的词的唯一性,使得根据关键词列表中的词组合成的概念更加准确。
S204、根据信息标题中的词顺序,将关键词列表中的词组合形成概念。
示例性的,信息标题中的词顺序为信息标题中各个词的前后顺序。例如,切词结果为word_tokenize[′05年′,′的′,′A′,′主持′,′的′,′音乐′,′颁奖′,′晚会′,′,′,′还有′,′B′,′C′],表示上述各个词顺序从前往后为1-12。
由此可见,本申请实施例提供的信息标题中概念的确定方法,通过对信息标题进行依存句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词;若预设关键词不为复合名词中的依存词,则根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词根据预设关键词和关键词建立关键词列表;根据信息标题中的词顺序,将关键词列表中的词组合形成概念,使得在根据信息对应的概念进行检索时,能够被检索到,从而提高了信息被检索到的概率。
为了便于本申请实施例提供的信息标题中概念的确定方法,下面,将通过一个具体的例子对本申请的技术方案进行详细的描述。
示例性的,信息标题为″五花肉最好吃的新做法,色泽透亮,清香扑鼻,吃起来肥而不腻″。对该信息标题执行下述步骤:
步骤1、判断信息标题中是否包含预设关键词,若不包含,则退出二若包含,则执行步骤2。可知,该信息标题中包含预设关键词′做法′。
步骤2、通过依存句法分析判断预设关键词在句子中是否为复合名词中的修饰名词。若是,则退出,表示在该信息标题中以该预设关键词结尾的短语不可作为一个概念;若否,则执行下述步骤3。其中,判断预设关键词在句子中是否为复合名词中的修饰名词,即判断预设关键词是否为依存关系′compound:nn′连接两个词中的依存词,实现方法为:判断dependency_parse结果列表中的每个元组内的第三个元素是否为预设关键词的在句子中的切词位置编号,若是则判断该元组第一个元素是否为依存关系′compound:nn′。
示例性的,对于上述信息标题,依存句法分析结果为:dependency_parse[(′ROOT′,0,9),(′nsubj′,3,1),(′advmod′,3,2),(′amod′,6,3),(′mark′,3,4),(′amod′,6,5),(′nmod:topic′,9,6),(′punct′,9,7),(′nsubj′,9,8),(′punct′,9,10),(′nsubj′,12,11),(′conj′,9,12),(′punct′,9,13),(′dep′,19,14),(′advmod:rcomp′,14,15),(′dobj′,14,16),(′advmod′,19,17),(′neg′,19,18),(′conj′,9,19)]。且分词word_tokenize结果列表为:[′五花肉′,′最′,′好吃′,′的′,′新′,′做法′,′,′,′色泽′,′透亮′,′,′,′清香′,′扑鼻′,′,′,′吃′,′起来′,′肥′,′而′,′不′,′腻′]。可知句子分词后,预设关键词″做法″是第6个切词片段,位置编号为6。根据依存句法分析结果,可以确定以预设关键词″做法″为主的树形图。图3a为本申请实施例提供的一种依存关系树形示意图。图3a可以简化为仅包含切词位置编号的图,如可以简化为图3b,图3b为本申请实施例提供的一种切词位置编号的树形示意图。图3c为本申请实施例提供的一种信息标题中的词语的树形示意图。根据步骤2所述,该信息标题中的预设关键词为元组(′nmod:topic′,9,6)中的第三个元素,且该元组的依存关系不是复合名词关系,则执行下述步骤3。
步骤3、判断预设关键词是否为某依存关系中的核心词,若否,则退出;若是,则执行步骤4。示例性的可以通过遍历dependency_parse结果列表中的每个元组,判断元组内的第二个元素是否为预设关键词的在句子中的切词位置编号。在该信息标题中,6分别是dependency_parse结果列表中的元组(′amod′,6,3)和(′amod′,6,5)内的第二个元素。
步骤4、判断依存关系是否为预设一阶依存关系,若否,则退出,若是,则执行步骤5。根据步骤3所述,依存关系′amod′为上述实施例中的预设一阶依存关系。
步骤5、遍历dependency_parse结果列表,判断是否存在并找出以该依存关系的依存词作为核心词的一个或多个依存关系,若不存在,则退出,若存在,则执行步骤6。根据步骤3所述,依存关系′amod′的依存词是3和5。以3作为核心词的依存关系有三个,分别是(′nsubj′,3,1)中的′nsubj′,(′advmod′,3,2)中的′advmod′,(′mark′,3,4)中的′mark′;以5作为核心词的依存关系不存在。
步骤6、判断这些依存关系是否为该预设一阶依存关系的二阶依存关系,若是,则执行步骤8;若否则执行步骤7。根据上述步骤5所述,以3作为核心词的元组的依存关系′nsubj′,′advmod′和′mark′中,存在′nsubj′是预设一阶依存关系′amod′的二阶依存关系,则以这一分支路径执行步骤8。以5作为核心词的依存关系不存在,则这一分支路径执行步骤7。具体的,可以通过图4a表示,图4a为本申请实施例提供的另一种依存关系树形示意图。其中,图4a可以简化为图4b所示的树形示意图,图4b为本申请实施例提供的再一种依存关系树形示意图。
步骤7、判断该一阶依存关系是否可独立作为概念,若是,则执行步骤8;若否,则退出。根据上述步骤6所述,依存关系′amod′是可独立作为概念的预设依存关系,则执行步骤8。
步骤8、将步骤6和步骤7得到的符合预设依存关系路径上的全部单词放入一个候选单词列表,包含以下单词(零个、一个或多个二阶依存关系的依存词,(一个或多个)一阶依存关系的核心词和(一个或多个)依存词,该依存词用于连接二阶依存关系)。对于该信息标题,二阶依存关系′nsubj′的依存词是1,一阶依存关系的核心词是6依存词是3和5。具体的,可参见图5所示,图5为本申请实施例提供的一种候选单词列表中各个词的依存关系树形示意图。
步骤9、将候选单词列表中的单词去除重复,按照在句子中出现的顺序将单词列表中的单词组合为概念。根据步骤8所述,按照在句子中出现的顺序1,3,5,6位置的单词[′五花肉′,′好吃′,′新′,′做法′]组合为概念′五花肉好吃新做法′。
综上所述,通过本申请实施例提供的方法,符合最大匹配原则,并按照支配关系进行匹配,可以将冗长而复杂的信息标题形成简短而准确的概念,从而提高了信息被检索到的概率。
下面结合具体步骤,对本申请上述实施例提供的信息标题中概念的确定方法进行详细说明。下面各申请实施例中具体的方法可参见上述实施例所述,本申请实施例在此不再赘述。
示例性的,信息的标题为″10分钟做出不一样的营养早餐,洋葱鸡蛋饼的简单好吃做法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′nsubj′,3,1),(′mark:clf′,1,2),(′neg′,5,4),(′amod′,8,5),(′mark′,5,6),(′compound:nn′,8,7),(′dobj′,3,8),(′punct′,3,9),(′compound:nn′,12,10),(′compound:nn′,12,11),(′nmod:assmod′,16,12),(′case′,12,13),(′amod′,16,14),(′amod′,16,15),(′dep′,3,16)],title_word_tokenize[′10′,′分钟′,′做出′,′不′,′一样′,′的′,′营养′,′早餐′,′,′,′洋葱′,′鸡蛋′,′饼′,′的′,′简单′,′好吃′,′做法′]。预设关键词为″做法″,根据元组(′compound:nn′,12,10),(′compound:nn′,12,11),(′nmod:assmod′,16,12)确定关键词列表中的词为:″洋葱″,″鸡蛋″,″饼″,″做法″,则该信息的概念为″洋葱鸡蛋饼做法″。
示例性的,信息的标题为″10岁女儿在校车上打扰同学被赶下车这才是整治熊孩子的正确做法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,9),(′nummod′,5,1),(′mark:clf′,1,2),(′compound:nn′,4,3),(′compound:nn′,5,4),(′nmod:topic′,9,5),(′compound:nn′,7,6),(′nsubjpass′,9,7),(′auxpass′,9,8),(′dep′,18,10),(′dobj′,10,11),(′advmod′,18,12),(′cop′,18,13),(′amod′,15,14),(′nmod:assmod′,18,15),(′case′,15,16),(′amod′,18,17),(′dobj′,9,18)]。title_word_tokenize[′10′,′岁′,′女儿′,′在校′,′车上′,′打扰′,′同学′,′被′,′赶′,′下车′,′这′,′才′,′是′,′整治熊′,′孩子′,′的′,′正确′,′做法′],预设关键词为″做法″,根据元组(′amod′,15,14),(′nmod:assmod′,18,15),确定关键词列表中的词为:″整治熊″,″孩子″,″做法″,则该信息的概念为″整治熊孩子做法″。
示例性的,信息的标题为″阳台种植新方法,用它代替土,很有才的做法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,2),(′nsubj′,2,1),(′amod′,4,3),(′dobj′,2,4),(′punct′,2,5),(′case′,7,6),(′nmod:prep′,8,7),(′conj′,2,8),(′dobj′,8,9),(′punct′,2,10),(′nmod:assmod′,13,11),(′case′,11,12),(′conj′,2,13)]。title_word_tokenize[′阳台′,′种植′,′新′,′方法′,′,′,′用′,′它′,′代替′,′土′,′,′,′很有才′,′的′,′做法′],预设关键词为″方法″,根据元组(′nsubj′,2,1),(′dobj′,2,4),确定关键词列表中的词为:″阳台″,″种植″,方法″,则该信息的概念为″阳台种植方法″。
示例性的,信息的标题为″保鲜膜也有正确使用方法?但是好多人一直做错,懂的人早已受益″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′nsubj′,3,1),(′advmod′,3,2),(′amod′,6,4),(′compound:nn′,6,5),(′dobj′,3,6),(′punct′,3,7),(′ROOT′,0,5),(′advmod′,5,1),(′dep′,3,2),(′nsubj′,5,3),(′advmod′,5,4),(′punct′,5,6),(′dep′,11,7),(′dobj′,7,8),(′advmod′,11,9),(′advmod′,11,10),(′conj′,5,11)]。title_word_tokenize[′保鲜膜′,′也′,′有′,′正确′,′使用′,′方法′,′?′,′但是′,′好多′,′人′,′一直′,′做错′,′,′,′懂的′,′人′,′早′,′已′,′受益′],关键词为″方法″,根据元组(′dobj′,3,6),(′amod′,6,4),(′compound:nn′,6,5),(′advmod′,5,1),确定关键词列表中的词为:″保鲜膜″,″正确″,″使用″,″方法″,则该信息的概念为″保鲜膜正确使用方法″。
示例性的,信息的标题为″慢性胃炎是什么症状″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,5),(′amod′,2,1),(′nsubj′,5,2),(′cop′,5,3),(′compound:nn′,5,4)]。title_word_tokenize[′慢性′,′胃炎′,′是′,′什么′,′症状′],预设关键词为″症状″,根据元组(′amod′,2,1),(′nsubj′,5,2),确定关键词列表中的词为:″慢性″,″胃炎″,″症状″,则该信息的概念为″慢性胃炎症状″。
根据上述实施例所述,本申请提供的信息标题中概念的确定方法,能够精确地确定出信息标题中的主要词汇,并形成信息的概念,信息的概念能够准确的表示出信息的含义,使得信息能够被检索到。
上述实施例中,在确定信息标题的至少一个关键词之后,还可以进一步确定信息标题中是否合有补充关键词。图6为本申请实施例提供的一种确定补充关键词的方法的流程示意图。根据图6所示,该确定补充关键词的方法包括:
S601、判断预设关键词所在的元组对应的依存关系是否为直接宾语。
其中,直接宾语通过′dobj′依存关系表示,其核心词为谓词或介词。
示例性的,判断预设关键词所在的元组对应的依存关系是否为直接宾语,即判断预设关键词是否为直接宾语依存关系′dobj′中的依存词,即判断预设关键词是否是句子谓语动词的依存词。实现方法为:通过遍历dependency_parse结果列表中的每个元组,判断是否存在一个元组,该元组的第一个元素为′dobj′且第三个元素为预设关键词的在句子中的切词位置编号。例如,(′dobj′,a,b),其中,b为预设关键词,a为谓语动词。
S602、若预设关键词所在的元组对应的依存关系为直接宾语,则根据预设关键词所在的元组中的核心词,确定补充关键词。
在根据预设关键词所在的元组中的核心词,确定至少一个补充关键词时,可以判断预设关键词所在的元组中的核心词是否为预设谓语动词;若预设关键词所在的元组中的核心词是预设谓语动词,则根据预设关键词所在的元组中的核心词,在依存句法分析结果中确定补充元组,补充元组中的核心词为预设关键词所在的元组中的核心词;若补充元组对应的依存关系满足补充预设依存关系,且补充元组中的依存词在信息标题中处于补充元组中的核心词的前边,则将补充元组中的依存词确定为补充关键词。其中,谓语动词通过直接宾语依存关系′dobj′找到,′dep′只是一种补充预设依存关系。
示例性的,判断预设关键词所在的元组中的核心词是否为预设谓语动词,即判断谓语动词是否为′有′,且预设关键词是否为′表现′,′方法′,′做法′,′作用′等之一。本申请实施例仅以预设位于动词为′有′为例进行说明,但并不代表本申请实施例仅局限于此。
在本申请实施例中,根据预设关键词所在的元组中的核心词是否为谓语动词,并根据补充预设依存关系,确定补充元组,并将补充元组中的依存词确定为补充关键词,能够避免组成概念的词分别在谓语动词的两边,而导致形成的概念不完整的问题,进一步提高了形成的概念的准确性,从而提高了信息被搜索到的概率。
示例性的,若预设关键词所在的元组中的核心词不是预设谓语动词,且在信息标题中与补充元组中的核心词相邻的下一个词语在关键词列表中,则对补充元组中的核心词和相邻的下一个词进行切词处理,生成切词处理结果;若切词处理结果补充元组中的核心词和相邻的下一个构成了一个词,则将补充元组中的核心词确定为补充关键词。例如,谓语动词为′晒′,在信息标题中与其相邻的下一个词语′出′在关键词列表中,则对′晒′和′出′进行切词处理,可以得到切词结果为′晒′和′出′构成了一个词′晒出′,则将′晒′确定为补充关键词。
在本申请实施例中,在预设关键词所在的元组中的核心词不是预设谓语动词时,对补充元组中的核心词和相邻的下一个词进行切词处理,从而将补充元组中的核心词确定为补充关键词,能够避免遗漏信息标题中较为重要的词,从而提高了确定的关键词的准确性。
在另一种可能的实现方式中,若预设关键词所在的元组中的核心词为名动词,则将预设关键词所在的元组中的核心词确定为补充关键词,能够避免遗漏关键词,从而提高了确定的概念的准确性。例如,预设关键词所在的元组中的核心词为名动词′减肥′,则直接将′减肥′确定为补充关键词。
由此可见,本申请实施例提供的补充关键词的确定方法,通过判断预设关键词所在的元组对应的依存关系是否为直接宾语;若预设关键词所在的元组对应的依存关系为直接宾语,则根据预设关键词所在的元组中的核心词,确定补充关键词,能够避免将信息标题中的部分关键词遗漏,使得形成的概念更加准确。
下面结合具体步骤,对本申请上述实施例提供的确定补充关键词的方法进行详细说明。下面各申请实施例中,根据依存句法分析处理结果确定补充关键词的方法均可参见上述实施例所述,本申请实施例在此不再赘述。
示例性的,信息的标题为″肛裂有哪些预防方法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′dep′,3,2),(′det′,6,4),(′compound:nn′,6,5),(′dobj′,3,6)]。切词结果为:title_word_tokenize[′,′,′肛裂′,′有′,′哪些′,′预防′,′方法′],预设关键词为″方法″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″肛裂″,″预防″,″方法″,则信息的概念为″肛裂预防方法″。
示例性的,信息的标题为″01大姨妈有这3个异常表现,暗示大病已上线,一再忽视晚年后悔莫及″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′dep′,3,2),(′det′,8,4),(′dep′,4,5),(′mark:clf′,5,6),(′amod′,8,7),(′dobj′,3,8),(′punct′,3,9),(′conj′,3,10),(′nsubj′,13,11),(′advmod′,13,12),(′ccomp′,10,13),(′punct′,13,14),(′dep′,20,15),(′advmod′,17,16),(′dep′,20,17),(′nsubj′,19,18),(′ccomp′,17,19),(′conj′,13,20)]。切词结果为:title_word_tokenize[′01′,′大姨妈′,′有′,′这′,′3′,′个′,′异常′,′表现′,′,′,′暗示′,′大病′,′已′,′上线′,′,′,′一′,′再′,′忽视′,′晚年′,′后悔′,′莫及′],预设关键词为″表现″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″大姨妈″,″异常″,″表现″,则信息的概念为″大姨妈异常表现″。
示例性的,信息的标题为″01奇创计划,D5大最揪心镜头合集,紧张之余是满满的感动″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′dep′,3,2),(′det′,8,4),(′dep′,4,5),(′mark:clf′,5,6),(′amod′,8,7),(′dobj′,3,8),(′punct′,3,9),(′conj′,3,10),(′nsubj′,13,11),(′advmod′,13,12),(′ccomp′,10,13),(′punct′,13,14),(′dep′,20,15),(′advmod′,17,16),(′dep′,20,17),(′nsubj′,19,18),(′ccomp′,17,19),(′conj′,13,20)]。切词结果为:title_word_tokenize[′01′,′奇创′,′计划′,′,′,′D′,′5′,′大′,′最′,′揪心′,′镜头′,′合集′,′,′,′紧张′,′之余′,′是′,′满满′,′的′,′感动′],预设关键词为″镜头″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″揪心″,″镜头″,″合集″,则信息的概念为″揪心镜头合集″。
示例性的,信息的标题为″01接地气舞蹈,农民心声舞曲《》,动感好看″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,13),(′punct′,13,1),(′dep′,13,2),(′compound:nn′,4,3),(′dobj′,2,4),(′punct′,13,5),(′compound:nn′,8,6),(′compound:nn′,8,7),(′dep′,13,8),(′punct′,13,9),(′punct′,13,10),(′punct′,13,11),(′nsubj′,13,12)]。切词结果为:title_word_tokenize[′01′,′接地′,′气′,′舞蹈′,′,′,′农民′,′心声′,′舞曲′,′《′,′》′,′,′,′动感′,′好看′],预设关键词为″舞蹈″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″接地″,″气″,″舞蹈″,则信息的概念为″接地气舞蹈″。
示例性的,信息的标题为″01最新起泡胶做法!只需用非牛顿流体,就能成功起泡变大!无硼砂″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′advmod′,3,2),(′compound:nn′,5,4),(′dobj′,3,5),(′punct′,3,6),(′ROOT′,0,3),(′advmod′,3,1),(′xcomp′,3,2),(′advmod′,5,4),(′ccomp′,3,5),(′dobj′,5,6),(′punct′,3,7),(′advmod′,10,8),(′aux:modal′,10,9),(′conj′,3,10),(′compound:vc′,12,11),(′conj′,10,12),(′punct′,3,13),(′ROOT′,0,1),(′dobj′,1,2)]。切词结果为:title_word_tokenize[′01′,′最新′,′起泡′,′胶′,′做法′,′!′,′只′,′需′,′用′,′非′,′牛顿′,′流体′,′,′,′就′,′能′,′成功′,′起泡′,′变大′,′!′,′无′,′硼砂′],预设关键词为″做法″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″起泡″,″胶″,″做法″,则信息的概念为″起泡胶做法″。
示例性的,信息的标题为″01儿童益智:孩子们喜欢的动手能力益智视频!来跟着一起学习吧!″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′compound:nn′,3,2),(′parataxis:prnmod′,3,4),(′nsubj′,6,5),(′dep′,4,6),(′mark′,6,7),(′acl′,6,8),(′compound:nn′,11,9),(′compound:nn′,11,10),(′dobj′,8,11),(′punct′,6,12),(′ROOT′,0,6),(′xcomp′,2,1),(′dep′,6,2),(′advmod′,4,3),(′ccomp′,2,4),(′discourse′,6,5)]。切词结果为:title_word_tokenize[′,′,′儿童′,′益智′,′:′,′孩子们′,′喜欢′,′的′,′动手′,′能力′,′益智′,′视频′,′!′,′来′,′跟着′,′一起′,′学习′,′吧′,′!′],预设关键词为″视频″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″动手″,″能力″,″益智″,″视频″,则信息的概念为″动手能力益智视频″。
示例性的,信息的标题为″″X智造″亿航184飞行器公布载人测试视频″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,9),(′punct′,9,1),(′nmod:assmod′,3,2),(′dep′,8,3),(′punct′,8,4),(′dep′,6,5),(′nmod:assmod′,8,6),(′dep′,8,7),(′nsubj′,9,8),(′ccomp′,9,10),(′compound:nn′,12,11),(′dobj′,10,12)]。切词结果为:title_word_tokenize[″″,′X′,智造′,″″,′亿′,′航′,′184′,′飞行器′,′公布′,′载人′,′测试′,′视频′],预设关键词为″明星″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″减肥″,″大″,″明星″,则信息的标题为″减肥大明星″。
示例性的,信息标题为″10年了才清楚,洗碗池上的小孔有这么大作用,是真的厉害,快试试″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,18),(′dep′,5,1),(′mark:clf′,1,2),(′aux:asp′,5,3),(′advmod′,5,4),(′dep′,18,5),(′punct′,5,6),(′nmod′,10,7),(′case′,7,8),(′case′,7,9),(′dep′,11,10),(′conj′,5,11),(′advmod′,13,12),(′amod′,14,13),(′dobj′,11,14),(′punct′,18,15),(′cop′,18,16),(′advmod′,18,17),(′punct′,18,19),(′advmod′,21,20),(′conj′,18,21)]。切词结果为:title_word_tokenize[′10′,′年′,′了′,′才′,′清楚′,′,′,′洗碗池′,′上′,′的′,′小孔′,′有′,′这么′,′大′,′作用′,′,′,′是′,′真的′,′厉害′,′,′,′快′,′试试′],预设关键词为″作用″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″小孔″,″大″,″作用″,则信息的概念为″小孔大作用″。
示例性的,信息标题为″10分钟燃脂暴汗女团舞,收腹瘦腿,3首连跳,超减肥瘦身″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′dep′,3,1),(′mark:clf′,1,2),(′nmod:assmod′,6,4),(′compound:nn′,6,5),(′dobj′,3,6),(′punct′,3,7),(′nsubj′,9,8),(′conj′,3,9),(′dobj′,9,10),(′punct′,3,11),(′nsubj′,15,12),(′mark:clf′,12,13),(′advmod′,15,14),(′conj′,3,15),(′punct′,15,16),(′xcomp′,18,17),(′conj′,15,18),(′dobj′,18,19)]。切词结果为:title_word_tokenize[′10′,′分钟′,′燃′,′脂暴汗′,′女团′,′舞′,′,′,′收腹′,′瘦′,′腿′,′,′,′3′,′首′,′连′,′跳′,′,′,′超′,′减肥′,′瘦身′],预设关键词为″作用″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″燃″,″脂暴汗″,″女团″,″舞″,则信息的概念为″燃脂暴汗女团舞″。
示例性的,信息标题为″#赚钱,一个90后小伙不花一分钱开火锅店的故事,看懂的人都有商业头脑#思维″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,2),(′punct′,2,1),(′punct′,2,3),(′nummod′,6,4),(′mark:clf′,4,5),(′advmod:loc′,10,6),(′case′,6,7),(′nsubj′,10,8),(′neg′,10,9),(′conj′,2,10),(′nummod′,13,11),(′mark:clf′,11,12),(′dobj′,10,13),(′conj′,10,14),(′compound:nn′,16,15),(′nmod:assmod′,18,16),(′case′,16,17),(′dobj′,14,18),(′punct′,10,19),(′acl′,22,20),(′mark′,20,21),(′nsubj′,24,22),(′advmod′,24,23),(′conj′,10,24),(′compound:nn′,26,25),(′dobj′,24,26),(′punct′,10,27),(′punct′,10,28),(′conj′,10,29)]。切词结果为:title_word_tokenize[′#′,′赚钱′,′,′,′一′,′个′,′90′,′后′,′小伙′,′不′,′花′,′一′,′分′,′钱′,′开火′,′锅′,′店′,′的′,′故事′,′,′,′看懂′,′的′,′人′,′都′,′有′,′商业′,′头脑′,′,′,′#′,′思维′],预设关键词为″作用″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″开火″,″锅″,″店″,″故事″,则信息的概念为″开火锅店故事″。
根据上述实施例所述,本申请实施例提供的补充候选词列表的方法能够避免遗漏信息标题中的部分关键词,使得确定的信息的概念更加准确。
为了便于理解本申请实施例提供的技术方案,下面,将根据,以用户通过本申请实施例图1中所示的装置,对视频进行检索的场景为例进行描述,具体的,可参见图7所述,图7为本申请实施例提供的一种视频标题中概念的确定方法的流程示意图。如图7所示,该视频标题中概念的确定方法可以包括以下步骤:
S701、接收视频查询请求。
其中,视频查询请求中可以包括文本信息。
示例性的,用户可以通过图1所示的装置,用户可以通过控制装置输入信息标题中概念的确定请求,例如,用户可以对着遥控器说″我想看足球比赛视频″,或者″宫保鸡丁的做法″等语音,输入视频查询请求。可以理解的是,显示设备在接收用户输入的语音的视频查询请求之后,将包括视频查询请求的语音传输至控制器,控制器通过对接收的语音进行处理,生成对应的文本信息。其中,对接收的语音进行处理可以为降噪处理,纠错处理等,本申请实施例对于处理方式不做具体限定。
在另一种可能的实现方式中,控制器在接收视频查询请求时,可以是用户直接在显示设备上输入文本信息。例如,用户通过遥控器在显示设备上输入″蔬菜沙拉的做法″或者″新闻联播″等文本信息。
在接收到视频查询请求后,可以执行下述S702:
S702、获取视频库中多个视频各自对应的概念。
在本申请实施例中,获取的视频库中多个视频各自对应的概念,可以通过对多个视频中每一个视频的原始标题进行依存句法分析,根据原始标题中的预设关键词在原始标题中确定至少一个关键词,并根据多个关键词在原始标题中词顺序,将所有关键词重新组合,从而确定多个视频中每一个视频各自对应的概念,具体的可参见上述实施例所述的方法,本申请实施例在此不再赘述。
S703、根据视频查询请求对视频库中多个视频各自对应的概念进行检索。
示例性的,在根据视频查询请求对视频库中多个视频各自对应的概念进行检索时,可以根据视频查询请求中的文本信息对应的文本对多个视频各自对应的概念的文本进行检索,通过将多个视频对应的概念的文本与文本信息对应的文本进行匹配,检索出匹配成功的视频,其中匹配成功可以根据匹配度的大小确定,即,可以将匹配度大于匹配度阈值的视频确定为匹配成功,从而检索出匹配成功的视频。例如,若视频对应的概念的文本与文本信息对应的文本的匹配度大于70%,则确定该视频匹配成功。在本申请实施例中,对于匹配度的大小不做具体限定,此外,本申请实施例仅以根据文本匹配为例进行说明,具体的可根据实际情况选择其他的匹配方法,本申请实施例对此不做任何限定。
S704、输出检索到的视频。
示例性的,可以通过显示设备输出与文本信息匹配成功的视频。可以理解的是,显示设备在显示匹配成功的视频时,可以相应的显示各个视频的原始标题。
本申请实施例提供的信息标题中概念的确定方法,在用于查询视频时,接收视频查询请求;获取视频库中多个视频各自对应的概念;信息标题中概念的确定请求中包括文本信息;获取视频库中多个视频各自对应的概念;根据视频查询请求对视频库中多个视频各自对应的概念进行检索;输出检索到的视频。本申请提供获取的视频对应的概念为原始标题中的部分词语的组合,能够冗长复杂的原始标题进行简化为概念,使得在根据视频查询请求对视频库中的视频概念进行检索时,使得视频能够被检索到,增加视频被检索到的概率,从而有效的提高了视频的曝光率。
在上述实施例的基础上,在获取视频库中多个视频各自对应的概念时,还需要根据视频库中各视频的原始标题,确定视频的概念。可参见图8所示,图8为本申请实施例提供的一种确定视频概念的方法的流程图示意图。如图8所示,确定视频概念的方法包括:
S801、获取视频库中各视频的原始标题。
示例性的,视频库中各视频的原始标题为各视频的发布者为视频附加的标题。例如,关于动漫″柯南″的片段节选视频,该视频的原始标题为关于足球比赛的视频,该视频的原始标题″足球赛中最刺激的终场绝杀,这样的绝杀真是买年难得一见呀!″。
S802、针对每个视频的原始标题,对原始标题进行依存句法分析,确定依存句法分析结果。
根据上述实施例所述,依存句法分析结果包括至少两个元组,每个元组中均包括依存关系、核心词和依存词。
示例性的,预设关键词可以为业务关键词,用于表示每个视频含义的关键词。预设关键词可以为电影、电视剧、小说、漫画、动漫、食谱、菜谱、应用程序、动画片、症状、攻略、特产、方法、危害、表现、功效、配方、副作用等。本申请仅以上述预设关键词为例进行说明,但并不代表本申请实施例仅局限于此。具体的预设关键词,可以根据实际情况进行设定。
在得到依存句法分析的处理结果后,可以执行下述S803:
S803、根据至少依存句法分析结果,确定至少一个关键词,并建立关键词列表。
根据至少依存句法分析结果,确定至少一个关键词的方法与上述实施例相同,本申请实施例再次不再赘述。
示例性的,在建立关键词列表时,可以根据预设关键词以及确定的至少一个关键词,建立初始关键词列表,并通过去重处理确定关键词列表。在建立初始关键词列表之后,还可以利用上述实施例所述的确定补充关键词的方法,确定出视频原始标题中的补充关键词。
S804、根据每个视频原始标题中的词顺序,将关键词列表中的词组合形成概念。
例如,视频的原始标题为″01学习音乐的基本音标教学视频认识颜色学习英语儿歌童谣!″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,9),(′dep′,3,1),(′compound:nn′,3,2),(′nmod:assmod′,8,3),(′case′,3,4),(′amod′,6,5),(′compound:nn′,8,6),(′compound:nn′,8,7),(′nsubj′,9,8),(′dobj′,9,10),(′conj′,9,11),(′compound:nn′,13,12),(′compound:nn′,14,13),(′dobj′,11,14),(′punct′,9,15)]。title_word_tokenize[′01′,′学习′,′音乐′,′的′,′基本′,′音标′,′教学′,′视频′,′认识′,′颜色′,′学习′,′英语′,′儿歌′,′童谣′,′!′],预设关键词为″音乐″,根据元组(′compound:nn′,3,2),(′nmod:assmod′,8,3)确定加入关键词列表中的词为:″学习″,″音乐″,″视频″,即视频的概念为″学习音乐视频″。
综上所述,本申请实施例提供的信息标题中概念的确定方法在用于对视频的原始标题进行处理时,能够提取出冗长而复杂的视频的原始标题中的部分关键词,并组合成为视频的概念,使得在根据视频的概念进行检索时,能够提高视频被检索到的概率。
示例性的,在本申请的另一实施例中,本申请提供的技术方案,在应用于对视频的标题中的概念进行确定时,在确定各个视频的概念之后,可以根据视频的概念为用户推送视频,这样能够将标题冗长而复杂的视频推送给用户,提高了视频被推送的概率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图9为本申请实施例提供的一种信息标题中概念的确定装置90的结构示意图。该信息标题中概念的确定装置应用于显示设备。如图9所示,本申请实施例提供的信息标题中概念的确定装置90包括:
分析模块901,用于对信息标题进行依存句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词;
处理模块902,用于在预设关键词不为复合名词中的依存词时,根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词;
处理模块902,还用于根据预设关键词和关键词,建立关键词列表;
确定模块903,用于根据信息标题中的词顺序,将关键词列表中的词组合形成概念。
在一些可能的实现方式中,处理模块902,具体用于根据预设关键词,在依存句法分析结果中确定目标元组,目标元组中的核心词为预设关键词;若目标元组对应的依存关系满足第一预设依存关系,则获取目标元组中的依存词。将目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个预设依存关系之间具有隶属关系,其中,第一预设依存关系对应的依存词为第二预设依存关系对应的核心词。并根据目标元组中的依存词,确定至少一个关键词。
在一些可能的实现方式中,处理模块902,具体用于根据预设关键词和关键词,建立初始关键词列表;并对初始关键词列表中的词进行去重处理,确定关键词列表。
在一些可能的实现方式中,装置还包括补充模块904,补充模块904,用于判断预设关键词所在的元组对应的依存关系是否为直接宾语;在预设关键词所在的元组对应的依存关系为直接宾语时,根据预设关键词所在的元组中的核心词,确定补充关键词。
在一些可能的实现方式中,补充模块904,具体用于判断预设关键词所在的元组中的核心词是否为预设谓语动词;在预设关键词所在的元组中的核心词是预设谓语动词时,根据预设关键词所在的元组中的核心词,在依存句法分析结果中确定补充元组,补充元组中的核心词为预设关键词所在的元组中的核心词。在补充元组对应的依存关系满足补充预设依存关系,且补充元组中的依存词在信息标题中处于补充元组中的核心词的前边时,将补充元组中的依存词确定为补充关键词。
在一些可能的实现方式中,补充模块904,具体用于在预设关键词所在的元组中的核心词不是预设谓语动词,且在信息标题中与补充元组中的核心词相邻的下一个词语在关键词列表中时,对补充元组中的核心词和相邻的下一个词进行切词处理,生成切词处理结果。在切词处理结果补充元组中的核心词和相邻的下一个构成了一个词时,将补充元组中的核心词确定为补充关键词。
在一些可能的实现方式中,补充模块904,具体用于在预设关键词所在的元组中的核心词为名动词时,将预设关键词所在的元组中的核心词确定为补充关键词。
需要说明的是,本实施例提供的装置可用于执行上述的信息标题中概念的确定方法,其实现方式和技术效果类似,本实施例此处不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个ASIC(Application Specific Integrated Circuit,特定集成电路),或,一个或多个DSP(Digital Signal Processor,数字信号处理器),或,一个或者多个FPGA(FieldProgrammable Gate Array,现场可编程门阵列)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如CPU或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以SOC(System-on-a-Chip,片上系统)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图10为本申请实施例提供的另一种信息标题中概念的确定装置100的结构示意图,示例性的,请参见图10所示,该信息标题中概念的确定装置100可以包括处理器1001和存储器1002;其中,
所述存储器1002,用于存储计算机程序。
所述处理器1001,用于读取所述存储器1002存储的计算机程序,并根据所述存储器1002中的计算机程序执行上述任一实施例中的信息标题中概念的确定方法的技术方案。
可选地,存储器1002既可以是独立的,也可以跟处理器1001集成在一起。当存储器1002是独立于处理器1001之外的器件时,信息标题中概念的确定装置100还可以包括:总线,用于连接存储器1002和处理器1001。
可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器1001连接。处理器1001可以控制通信接口来实现上述信息标题中概念的确定装置100的接收和发送的功能。
本申请实施例所示的信息标题中概念的确定装置100,可以执行上述任一实施例中的信息标题中概念的确定方法的技术方案,其实现原理以及有益效果与信息标题中概念的确定方法的实现原理及有益效果类似,可参见信息标题中概念的确定方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当计算机程序被处理器执行时实现如上任一方法实施例所述的信息标题中概念的确定方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取计算机程序,该至少一个处理器执行计算机程序时可实现如上任一方法实施例所述的信息标题中概念的确定方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (9)
1.一种信息标题中概念的确定方法,其特征在于,包括:
对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法分析结果包括至少两个元组,所述元组包括依存关系、核心词以及依存词;
若预设关键词不为复合名词中的依存词,则根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词;
根据所述预设关键词和所述关键词,建立关键词列表;
根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念;
所述根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词,包括:
根据所述预设关键词,在所述依存句法分析结果中确定目标元组,所述目标元组中的核心词为所述预设关键词;若所述目标元组对应的依存关系满足第一预设依存关系,则获取所述目标元组中的依存词;
将所述目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个所述预设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存词为所述第二预设依存关系对应的核心词;
根据所述目标元组中的依存词,确定所述至少一个关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设关键词和所述关键词,建立关键词列表,包括:
根据所述预设关键词和所述关键词,建立初始关键词列表;
对所述初始关键词列表中的词进行去重处理,确定关键词列表。
3.根据权利要求1或2所述的方法,其特征在于,在所述确定所述信息标题的至少一个关键词之后,所述方法还包括:
判断所述预设关键词所在的元组对应的依存关系是否为直接宾语;
若所述预设关键词所在的元组对应的依存关系为所述直接宾语,则根据所述预设关键词所在的元组中的核心词,确定补充关键词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预设关键词所在的元组中的核心词,确定至少一个补充关键词,包括:
判断所述预设关键词所在的元组中的核心词是否为预设谓语动词;
若所述预设关键词所在的元组中的核心词是预设谓语动词,则根据所述预设关键词所在的元组中的核心词,在所述依存句法分析结果中确定补充元组,所述补充元组中的核心词为所述预设关键词所在的元组中的核心词;
若所述补充元组对应的依存关系满足补充预设依存关系,且所述补充元组中的依存词在所述信息标题中处于所述补充元组中的核心词的前边,则将所述补充元组中的依存词确定为补充关键词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述预设关键词所在的元组中的核心词不是预设谓语动词,且在所述信息标题中与所述补充元组中的核心词相邻的下一个词语在所述关键词列表中,则对所述补充元组中的核心词和所述相邻的下一个词进行切词处理,生成切词处理结果;
若所述切词处理结果所述补充元组中的核心词和所述相邻的下一个构成了一个词,则将所述补充元组中的核心词确定为补充关键词。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述预设关键词所在的元组中的核心词为名动词,则将所述预设关键词所在的元组中的核心词确定为补充关键词。
7.一种信息标题中概念的确定装置,其特征在于,应用于显示设备,所述信息标题中概念的确定装置包括:
分析模块,用于对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法分析结果包括至少两个元组,所述元组包括依存关系、核心词以及依存词;
处理模块,用于在预设关键词不为复合名词中的依存词时,根据所述预设关键词以及预设依存关系,确定所述信息标题的至少一个关键词;
所述处理模块,还用于根据所述预设关键词和所述关键词,建立关键词列表;
确定模块,用于根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念;
所述处理模块,具体用于根据所述预设关键词,在所述依存句法分析结果中确定目标元组,所述目标元组中的核心词为所述预设关键词;若所述目标元组对应的依存关系满足第一预设依存关系,则获取所述目标元组中的依存词;
将所述目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个所述预设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存词为所述第二预设依存关系对应的核心词;
根据所述目标元组中的依存词,确定所述至少一个关键词。
8.一种信息标题中概念的确定装置,其特征在于,包括存储器和处理器;其中,
所述存储器,用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-6任一项所述的一种信息标题中概念的确定方法。
9.一种计算机非易失性可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1-6任一项所述的信息标题中概念的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796744.9A CN113407739B (zh) | 2021-07-14 | 2021-07-14 | 信息标题中概念的确定方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796744.9A CN113407739B (zh) | 2021-07-14 | 2021-07-14 | 信息标题中概念的确定方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113407739A CN113407739A (zh) | 2021-09-17 |
CN113407739B true CN113407739B (zh) | 2023-01-06 |
Family
ID=77686479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110796744.9A Active CN113407739B (zh) | 2021-07-14 | 2021-07-14 | 信息标题中概念的确定方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113407739B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN112069801A (zh) * | 2020-09-14 | 2020-12-11 | 深圳前海微众银行股份有限公司 | 基于依存句法的句子主干抽取方法、设备和可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100515641B1 (ko) * | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
CN108304466B (zh) * | 2017-12-27 | 2022-01-11 | 中国银联股份有限公司 | 一种用户意图识别方法以及用户意图识别系统 |
CN111309916B (zh) * | 2020-03-05 | 2023-06-30 | 北京奇艺世纪科技有限公司 | 摘要抽取方法和装置、存储介质和电子装置 |
CN111625623B (zh) * | 2020-04-29 | 2023-09-08 | 奇安信科技集团股份有限公司 | 文本主题提取方法、装置、计算机设备、介质和程序产品 |
-
2021
- 2021-07-14 CN CN202110796744.9A patent/CN113407739B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN112069801A (zh) * | 2020-09-14 | 2020-12-11 | 深圳前海微众银行股份有限公司 | 基于依存句法的句子主干抽取方法、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113407739A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6505903B2 (ja) | 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム | |
CN109478205B (zh) | 用于计算机学习和理解的体系结构和方法 | |
US10515086B2 (en) | Intelligent agent and interface to provide enhanced search | |
US11977854B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US12073180B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US11227342B2 (en) | Recommending friends in automated chatting | |
WO2017041372A1 (zh) | 基于人工智能的人机交互方法和系统 | |
US11989507B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US9607611B2 (en) | Method for automatically transforming text into video | |
US20230274094A1 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
WO2023161630A1 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
CN110427478B (zh) | 一种基于知识图谱的问答搜索方法及系统 | |
US9720978B1 (en) | Fingerprint-based literary works recommendation system | |
US12067362B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US11475080B2 (en) | Natural language-based search and discovery of content service | |
CN112163560A (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
CN113407739B (zh) | 信息标题中概念的确定方法、装置和存储介质 | |
Dingli | Knowledge annotation: making implicit knowledge explicit | |
Klager et al. | Is GPT fit for KGQA?-Preliminary Results. | |
Wu | Proactive natural language search engine: tapping into structured data on the web | |
Adeoti et al. | Old song, new melody: gender contestations in the appropriated comedy of Samobaba’s Yorùbá Bollywood | |
CN111125302A (zh) | 用户输入语句检错方法、装置及电子设备 | |
Ganjoo | Laughter Through the Ages: Role of Comedy Films in Shaping Bollywood. | |
Liu | Harvesting and summarizing user-generated content for advanced speech-based human-computer interaction | |
Tan | Towards More Natural Explanations of User Preferences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |