CN111444330A - 提取短文本关键词的方法、装置、设备及存储介质 - Google Patents

提取短文本关键词的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111444330A
CN111444330A CN202010156963.6A CN202010156963A CN111444330A CN 111444330 A CN111444330 A CN 111444330A CN 202010156963 A CN202010156963 A CN 202010156963A CN 111444330 A CN111444330 A CN 111444330A
Authority
CN
China
Prior art keywords
target
candidate
phrase
keywords
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010156963.6A
Other languages
English (en)
Inventor
唐亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010156963.6A priority Critical patent/CN111444330A/zh
Publication of CN111444330A publication Critical patent/CN111444330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,公开了一种提取短文本关键词的方法、装置、设备及存储介质,提高短文本关键词提取的准确性。本申请方法包括:从待处理短文本中获取候选关键词;获取候选关键词中顺序号为连续性的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息;根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词;合并标注关键词,得到候选短语;按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语;当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语;将存在交叉字的修正候选短语进行拼接处理,得到目标关键词。

Description

提取短文本关键词的方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理领域,尤其涉及提取短文本关键词的方法、装置、设备及存储介质。
背景技术
短文本关键词抽取是文本挖掘的一个重要研究方向,在自动问答、话题跟踪、信息检索和产品推荐等领域具有重要作用。然而在海量的互联网文档中仅有少部分带有关键词标注,如何给短文本打上一个表意准确的关键词标签成为信息抽取领域的重要问题。
现有的短文本关键词抽取通过对短文本进行分词及词性标注,采用词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)算法或基于图的排序算法TextRank 算法或主题模型(latent dirichlet allocation,LDA)得到短文本的候选关键词,对候选关键词进行重新组合或者排序,得到最终的关键词。
由于TF-IDF算法局限于在词语重复出现的情况下使用,相对短文本的关键词提取存在较为适用长文本的缺陷,TextRank算法局限于将图节点作为候选词,将图的边作为词与词之间的共现关系,相对短文本的关键词提取存在较为适用长文本的缺陷,LDA主题模型在挖掘以传统的新闻文档为代表的长文本主题时能够取得比较好的效果,但不适用于短文本。而以决策树、神经网络为代表的有监督的分类模型对于短文本的关键词提取的处理,需要大量的标注样本,且由于短文本的字数少、特征稀疏和词语信息单调,现今的基于深度学习的无监督关键词提取技术也无法很好地适用于短文本,因而,短文本关键词提取存在提取的准确性低的问题。
发明内容
本申请提供了一种提取短文本关键词的方法、装置、设备及存储介质,用于结合语法结构与词性拼接过滤规则对短文本进行关键词提取,提高短文本关键词提取的准确性。
本申请实施例的第一方面提供一种提取短文本关键词的方法,包括:
对待处理短文本进行关键词预提取处理,获得候选关键词;
获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
可选的,在本申请实施例第一方面的第一种实现方式中,所述根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语,包括:
获取所述标注关键词的词性,并按照预设过滤规则和所述词性对所述标注关键词进行过滤处理,得到目标标注关键词;
比较所述目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;
根据所述目标标注信息中的目标顺序号,获取所述目标标注关键词中排序在所述目标词之前的关键词,得到待合并关键词;
根据所述目标顺序号对所述待合并关键词和所述目标词进行合并,获得候选短语。
可选的,在本申请实施例第一方面的第二种实现方式中,所述按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语,包括:
通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为所述预设词性中的任意一项的候选短语;
根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;
根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。
可选的,在本申请实施例第一方面的第三种实现方式中,所述当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成,包括:
将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;
将所述主目标候选短语作为父节点,将所述子目标候选短语的长度作为分支条件;
根据所述主目标候选短语、所述子目标候选短语和所述分支条件,得到子字符串关系识别树;
检索所述目标候选短语在所述子字符串关系识别树中的位置;
若检索到目标候选短语位于所述子字符串关系识别树中的父节点处,则删除所述子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;
若检索到目标候选短语位于所述子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,所述目标子节点为所述候选子节点后的子节点。
可选的,在本申请实施例第一方面的第四种实现方式中,所述将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同,包括:
当识别到两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将所述末端词与所述始端词分别对应的修正候选短语进行拼接处理,得到初始关键词;
计算所述初始关键词的词频-逆文本频率指数TF-IDF值,根据所述TF-IDF值确定候选关键词;
按照所述预设短语词性拼接规则对所述候选关键词进行筛选处理,得到目标关键词。
可选的,在本申请实施例第一方面的第五种实现方式中,所述计算所述初始关键词的词频-逆文本频率指数TF-IDF值,根据所述TF-IDF值确定候选关键词,包括:
获取所述待处理短文本所属领域中的词典和识别关键词,得到参考数据;
计算所述初始关键词在所述参考数据中的词频-逆文本频率指数TF-IDF值,得到待计算值;
按照预设权重值计算所述待计算值的加权平均值,得到预设阈值;
计算所述待计算值与所述预设阈值的差值,当所述差值大于或者等于0时,将对应的初始关键词作为候选关键词。
可选的,在本申请实施例第一方面的第六种实现方式中,所述对待处理短文本进行关键词预提取处理,获得候选关键词,包括:
通过分词工具对经过删除空格处理的初始待处理短文本进行分词处理,得到多个初始词语;
调用预置的词性标注模型对所述多个初始词语进行词性标注,得到待处理短文本;
识别所述待处理短文本是否存在词性空缺;
当识别到所述待处理短文本不存在词性空缺时,对所述待处理短文本进行过滤处理,得到候选关键词,所述过滤处理包括保留词过滤处理、停用词过滤处理和词性过滤处理;
当识别到所述待处理短文本存在词性空缺时,对存在词性空缺的所述待处理短文本进行词性填充处理,得到填充词语,对所述填充词语进行所述过滤处理,得到候选关键词。
本申请实施例的第二方面提供一种用于提取短文本关键词的装置,具有实现对应于上述第一方面提供的提取短文本关键词的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述单元可以是软件和/或硬件。
所述提取短文本关键词的装置包括:
提取单元,用于对待处理短文本进行关键词预提取处理,获得候选关键词;
获取单元,用于获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
创建单元,用于根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
合并单元,用于根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
分析单元,用于按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
删除单元,用于当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
拼接处理单元,用于将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
可选的,在本申请实施例第二方面的第一种实现方式中,所述合并单元具体用于:
获取所述标注关键词的词性,并按照预设过滤规则和所述词性对所述标注关键词进行过滤处理,得到目标标注关键词;
比较所述目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;
根据所述目标标注信息中的目标顺序号,获取所述目标标注关键词中排序在所述目标词之前的关键词,得到待合并关键词;
根据所述目标顺序号对所述待合并关键词和所述目标词进行合并,获得候选短语。
可选的,在本申请实施例第二方面的第二种实现方式中,所述分析单元具体用于:
通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为所述预设词性中的任意一项的候选短语;
根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;
根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。
可选的,在本申请实施例第二方面的第三种实现方式中,所述删除单元具体用于:
将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;
将所述主目标候选短语作为父节点,将所述子目标候选短语的长度作为分支条件;
将根据所述初始目标候选短语、所述子目标候选短语和所述分支条件,得到子字符串关系识别树;
检索所述目标候选短语在所述子字符串关系识别树中的位置;
若检索到目标候选短语位于所述子字符串关系识别树中的父节点处,则删除所述子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;
若检索到目标候选短语位于所述子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,所述目标子节点为所述候选子节点后的子节点。
可选的,在本申请实施例第二方面的第四种实现方式中,所述拼接处理单元还包括:
识别子单元,用于当识别到两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将所述末端词与所述始端词分别对应的修正候选短语进行拼接处理,得到初始关键词;
计算子单元,用于计算所述初始关键词的词频-逆文本频率指数TF-IDF值,根据所述 TF-IDF值确定候选关键词;
筛选子单元,用于按照所述预设短语词性拼接规则对所述候选关键词进行筛选处理,得到目标关键词。
可选的,在本申请实施例第二方面的第五种实现方式中,所述计算子单元具体用于:
获取所述待处理短文本所属领域中的词典和识别关键词,得到参考数据;
计算所述初始关键词在所述参考数据中的词频-逆文本频率指数TF-IDF值,得到待计算值;
按照预设权重值计算所述待计算值的加权平均值,得到预设阈值;
计算所述待计算值与所述预设阈值的差值,当所述差值大于或者等于0时,将对应的初始关键词作为候选关键词。
可选的,在本申请实施例第二方面的第六种实现方式中,所述提取单元具体用于:
通过分词工具对经过删除空格处理的初始待处理短文本进行分词处理,得到多个初始词语;
调用预置的词性标注模型对所述多个初始词语进行词性标注,得到待处理短文本;
识别所述待处理短文本是否存在词性空缺;
当识别到所述待处理短文本不存在词性空缺时,对所述待处理短文本进行过滤处理,得到候选关键词,所述过滤处理包括保留词过滤处理、停用词过滤处理和词性过滤处理;
当识别到所述待处理短文本存在词性空缺时,对存在词性空缺的所述待处理短文本进行词性填充处理,得到填充词语,对所述填充词语进行所述过滤处理,得到候选关键词。
本申请实施例的第三方面提供了一种提取短文本关键词的设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述提取短文本关键词的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行上述任一实施方式所述的提取短文本关键词的方法。
相较于现有技术,本申请实施例提供的技术方案中,通过从待处理短文本中获取候选关键词;获取候选关键词中顺序号为连续性的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息;根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词;合并标注关键词,得到候选短语;按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语;当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语;将存在交叉字的修正候选短语进行拼接处理,得到目标关键词。本申请实施例,结合语法结构与词性拼接过滤规则对短文本进行关键词提取,提高了短文本关键词提取的准确性。
附图说明
图1为本申请实施例中提取短文本关键词的方法的一个实施例示意图;
图2为本申请实施例中预设短语词性拼接规则的一个实施例示意图;
图3为本申请实施例中提取短文本关键词的方法的另一个实施例示意图;
图4为本申请实施例中提取短文本关键词的装置的一个实施例示意图;
图5为本申请实施例中提取短文本关键词的装置的另一个实施例示意图;
图6为本申请实施例中提取短文本关键词的设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种提取短文本关键词的方法、装置、设备及存储介质,用于结合语法结构与词性拼接过滤规则对短文本进行关键词提取,提高短文本关键词提取的准确性。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例进行描述。
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
请参阅图1,本申请实施例提供的一种提取短文本关键词的方法的流程图,以下对本申请提供一种提取短文本关键词的方法进行举例说明,该方法由计算机设备执行,计算机设备可为服务器或者终端,本申请不对执行主体的类型作限制,具体包括:
101、对待处理短文本进行关键词预提取处理,获得候选关键词。
服务器对待处理短文本进行关键词预提取处理,获得候选关键词,具体包括:通过分词工具对经过删除空格处理的初始待处理短文本进行分词处理,得到多个初始词语;调用预置的词性标注模型对多个初始词语进行词性标注,得到待处理短文本;识别待处理短文本是否存在词性空缺;当识别到待处理短文本不存在词性空缺时,对待处理短文本进行过滤处理,得到候选关键词,过滤处理包括保留词过滤处理、停用词过滤处理和词性过滤处理;当识别到待处理短文本存在词性空缺时,对存在词性空缺的待处理短文本进行词性填充处理,得到填充词语,对填充词语进行过滤处理,得到候选关键词。
服务器通过分析初始待处理短文本的所属领域,获取所属领域的词典,并通过分词工具中的双向匹配分词算法和机器学习算法根据所属领域的词典对初始待处理短文本进行分词处理,得到多个初始词语,识别多个初始词语的词性,并调用预置的词性标注模型将词性标注在多个初始词语上,得到待处理短文本,其中,分词工具可为ANSJ。通过结合机器学习算法和词典对初始待处理短文本进行分词和词性标注处理,一方面能够提高分词准确率,另一方面能够改善领域适应性。也可通过结巴Jieba分词算法基于前缀词典对初始待处理短文本进行高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的隐马尔科夫模型HMM模型,使用了维特比Viterbi算法,以对待处理短文本进行分词。
通过基于图的排序算法TextRank算法或者关键词提取算法(rapid automatickeyword extraction,RAKE)对经过分词处理和词性标注的待处理短文本进行关键词提取,得到预提取的关键词,调用预置的停用词表和保留词表对预提取的关键词进行筛选,删除预提取的关键词中存在停用词表和保留词表的关键词,对该关键词进行词性过滤处理,删除代词、方位词、连词、介词和副词等对应的关键词,得到候选关键词。通过对经过关键词预提取处理的关键词进行词性空缺填补和保留词过滤处理、停用词过滤处理和词性过滤处理,以提高关键词的质量和提高后续的处理效率。
102、获取候选关键词的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息,目标标注信息为顺序号为连续性的标注信息。
服务器获取候选关键词的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息,目标标注信息为顺序号为连续性的标注信息。
服务器在进行词性标注时,将待处理短文本的分词在待处理短文本的从左到右的位置按照连续顺序进行排序,并将排序的顺序号标注在分词上。分析候选关键词的标注信息中的顺序号是否是连续性的,若是连续性的,则获取对应的标注信息和候选关键词。例如:候选关键词分别为基于、词、语法、模型、分词和方法,基于、词、语法、模型、分词和方法的标注信息中的顺序号分别为1、2、3、4、5和6,则获取连续标注信息为“1、2、3、 4和5”或者“2、3、4、5和6”,对应的候选关键词分别为“基于、词、语法、模型和分词”或者“词、语法、模型、分词和方法”。
103、根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词。
服务器根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词。
服务器计算连续标注信息对应的候选关键词的概率:
Figure RE-GDA0002474167270000071
w表示连续标注信息对应的候选关键词,m表示连续标注信息对应的候选关键词的第m个。通过后退平滑back-off smoothing算法对连续标注信息对应的候选关键词的没出现的n-gram的估计的平滑处理,得到N元语法N-Gram信息,并将所述N元语法N-Gram信息标注至连续标注信息对应的候选关键词,得到标注候选关键词,其中,N为5。
104、根据目标标注信息和N元语法信息合并标注关键词,得到候选短语。
服务器根据目标标注信息和N元语法信息合并标注关键词,得到候选短语。具体的,包括:获取标注关键词的词性,并按照预设过滤规则和词性对标注关键词进行过滤处理,得到目标标注关键词;比较目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;根据目标标注信息中的目标顺序号,获取目标标注关键词中排序在目标词之前的关键词,得到待合并关键词;根据目标顺序号对待合并关键词和目标词进行合并,获得候选短语。
服务器根据连续标注信息的顺序号和N元语法信息的概率值,以将概率值最大的标注候选关键词按照关键词标注的顺序号的顺序进行排序和组合,得到候选短语,其中,在组合前会按照预设过滤规则进行过滤,符合预设过滤规则的候关键词方可进行排序和组合。一方面,预设过滤规则设置为组合的多个标注候选关键词的词性须相同,例如:标注候选关键词分别为“皮肤,黏膜,淋巴结和综合征”,“皮肤,黏膜,淋巴结和综合征”的词性均为名词n,则可组合为“皮肤黏膜淋巴结综合征”;标注候选关键词分别为“姐姐、坐和汽车”,“姐姐、坐和汽车”的词性分别为名词n、动词v和名词n,词性不同,不能合并。另一方面,连续标注信息对应的标注候选关键词的次数须大于2。上述举例仅作举例说明,其内容的实际操作和准确性不作考虑。通过过滤处理、根据连续标注信息和值最大的N元语法信息对应的候选关键词进行合并候选关键词,以提高候选短语的准确性和减少生成候选短语的操作次数,提高操作效率。
105、按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语。
服务器按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语,具体包括:通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为预设词性中的任意一项的候选短语;根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。
服务器按照预设短语词性拼接规则对候选短语的词性进行多层的过滤处理和保留处理,得到最终的目标候选短语。通过多层的预设短语词性拼接规则以保证目标候选短语的有效性和准确性。其中,预设短语词性拼接规则的第一层分析为分析候选短语的词性中是否存在动词、动名词和动词语素,对于不存在动词、动名词和动词语素的候选短语进行十三层的过滤和保留处理,包括对各词性连接后的词性进行分析判断;对于存在动词、动名词和动词语素的候选短语进行十二层的过滤和保留处理,包括对候选短语的各词性以及各词性连接后的词性以及进行分析判断。具体的预设短语词性拼接规则如图2所示。图2仅作举例说明,其内容的实际操作和准确性不作考虑。通过预设的预设短语词性拼接规则对候选短语的词性进行多层的过滤处理和保留处理,以较为简单的算法实轻模型、运行效率高和关键词提取准确性高的技术效果。
106、当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语,目标候选短语包括主目标候选短语和/或子目标候选短语,子字符串关系指示子目标候选短语由主目标候选短语中的字词构成。
服务器当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语,目标候选短语包括主目标候选短语和/或子目标候选短语,子字符串关系指示子目标候选短语由主目标候选短语中的字词构成。具体的,包括:将目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,子目标候选短语由主目标候选短语中的字词构成;将主目标候选短语作为父节点,将子目标候选短语的长度作为分支条件;根据主目标候选短语、子目标候选短语和分支条件,得到子字符串关系识别树;若检索到目标候选短语位于子字符串关系识别树中的父节点处,则删除子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;若检索到目标候选短语位于子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,目标子节点为候选子节点后的子节点。
服务器获得目标候选短语后对目标候选短语是否存在子字符串关系进行分析,若是分析到目标候选短语位于子字符串关系识别树的子节点(即存在子字符串关系),则将与子节点对应的目标候选短语删除,以对目标候选短语进行修正,得到修正候选短语;若是分析到目标候选短语位于子字符串关系识别树的父节点(即不存在子字符串关系),直接将目标候选短语全都作为修正候选短语。例如:主目标候选短语的字符串为ldfujioengkleim,则与主目标候选短语存在的子字符串关系的子目标候选短语的字符串为engkle、ldfujioengkleim和dfujioen等。以ldfujioengkleim为父节点,engkle的长度为6,ldfujioengkleim的长度为15,dfujioen的长度为8,则以6、15和8作为分支条件,engkle、ldfujioengkleim和dfujioen为子节点,得到子字符串关系识别树。上述举例仅作举例说明,其内容的实际操作和准确性不作考虑。通过子字符串关系识别树识别是否存在子字符串关系,并删除子字符串关系对应的目标候选短语,以提高处理效率和保证修正候选短语的准确性。
107、将存在交叉字的修正候选短语进行拼接处理,得到目标关键词,交叉字指示在两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
服务器将存在交叉字的修正候选短语进行拼接处理,得到目标关键词,交叉字指示在两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
服务器分析修正候选短语中是否存在交叉字的修正候选短语,若是存在交叉字,则将存在交叉字的两个修正候选短语按照修正候选短语上标注的信息对两个修正候选短语重组合,获得较为准确的目标短语(即目标关键词)。通过对存在交叉字的修正候选短语进行拼接处理,使其对短文本的关键词提取的准确性提高。
本申请实施例,通过结合语法结构与词性拼接过滤规则对短文本进行关键词提取,提高短文本关键词提取的准确性。
请参阅图3,本申请实施例中提取短文本关键词的方法的另一个实施例包括:
301、对待处理短文本进行关键词预提取处理,获得候选关键词。
302、获取候选关键词的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息,目标标注信息为顺序号为连续性的标注信息。
303、根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词。
304、根据目标标注信息和N元语法信息合并标注关键词,得到候选短语。
305、按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语。
306、当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语,目标候选短语包括主目标候选短语和/或子目标候选短语,子字符串关系指示子目标候选短语由主目标候选短语中的字词构成。
本申请实施例中,301至306的方法可参见101至106,此处不再赘述。
307、当识别到两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将末端词与始端词分别对应的修正候选短语进行拼接处理,得到初始关键词。
当服务器识别到两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将末端词与始端词分别对应的修正候选短语进行拼接处理,得到初始关键词。
当服务器识别到第一修正候选短语的末端词与第二修正候选短语的始端词相同时,则表示第一修正候选短语与第二修正候选短语存在交叉字,将第一修正候选短语和第二修正候选短语进行拼接处理,得到初始关键词,交叉字用于指示修正候选短语中的第一修正候选短语的末端词与修正候选短语中的第二修正候选短语的始端词相同。例如:第一修正候选短语为“先天性心”,第二修正候选短语为“心脏病”,则第一修正候选短语与第二修正候选短语存在交叉字,该交叉字为“心”,将第一修正候选短语与第二修正候选短语拼接处理得到“先天性心脏病”,“先天性心脏病”为初始关键词。
308、计算初始关键词的词频-逆文本频率指数TF-IDF值,根据TF-IDF值确定候选关键词。
服务器计算初始关键词的词频-逆文本频率指数TF-IDF值,根据TF-IDF值确定候选关键词,具体包括:获取待处理短文本所属领域中的词典和识别关键词,得到参考数据;计算初始关键词在参考数据中的词频-逆文本频率指数TF-IDF值,得到待计算值;按照预设权重值计算待计算值的加权平均值,得到预设阈值;计算待计算值与预设阈值的差值,当差值大于或者等于0时,将对应的初始关键词作为候选关键词。
由于服务器获得初始关键词后,可能所得到的初始关键词有多个,为了获取更为准确、更贴合对应领域和更符合用户的检索意愿的短文本关键词,因而计算初始关键词的词频- 逆文本频率指数TF-IDF值(即待计算值),通过根据TF-IDF值设置预设阈值,并对TF-IDF 值与预设阈值的差值进行是否大于或者等于0的判断以确定候选关键词。例如:初始关键词有三个,分别为甲、乙和丙,甲对应的TF-IDF值(即待计算值)为0.74,乙对应的TF-IDF值(即待计算值)为0.80,丙对应的TF-IDF(即待计算值)值为0.95,预设阈值为0.75,甲的待计算值0.74与预设阈值0.75的差值为-0.01,乙的待计算值0.80与预设阈值0.75的差值为0.05,丙的待计算值0.95与预设阈值0.75的差值为0.20,则候选关键词为乙和丙。
309、按照预设短语词性拼接规则对候选关键词进行筛选处理,得到目标关键词。
服务器按照预设短语词性拼接规则对候选关键词进行筛选处理,得到目标关键词。
服务器获得候选关键词后,为了获取候选关键词中符合语法结构和词性拼接过滤规则的较为准确的关键词,通过如图2的预设短语词性拼接规则对候选关键词进行一系列的判断和筛选,获得候选关键词对应领域的未登录词,即最终的目标关键词。通过对候选关键词进行一系列的筛选处理,输出专属领域内的未登录词,使其提高对短文本的关键词提取的准确性。
本申请实施例中的提取短文本关键词的方法在自动问答、话题跟踪、信息检索和产品推荐等领域具有重要作用中,比如在信息检索领域中,需要对输入的检索信息进行关键词提取得到关键词,再通过关键词对待检索数据进行检索以获得目标检索数据,而在对输入的检索信息进行关键词提取得到关键词中可通过本申请实施例的结合语法结构、词性拼接过滤规则和子字符串关系对输入的为短文本的检索信息进行短文本的关键词提取,得到检索信息的修正候选短语,并对修正候选短语进行拼接处理、TF-IDF值计算和预设短语词性拼接规则的筛选处理,得到目标关键词,通过本申请实施例中的提取短文本关键词的方法能够不依赖外部字典将短文本的检索信息中单词和字进行组合,并准确地输出检索信息对应的专属领域内的未登录词,以给短文本的检索信息打上一个表意准确的关键词标签,提高对短文本的关键词提取的准确性,从而提高信息检索领域中对检索信息的检索效率和检索准确性。
上面对本申请实施例中提取短文本关键词的方法进行了描述,下面对本申请实施例中提取短文本关键词的装置进行描述,请参阅图4,本申请实施例中提取短文本关键词的装置的一个实施例包括:
提取单元401,用于对待处理短文本进行关键词预提取处理,获得候选关键词;
获取单元402,用于获取候选关键词的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息,目标标注信息为顺序号为连续性的标注信息;
创建单元403,用于根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词;
合并单元404,用于根据目标标注信息和N元语法信息合并标注关键词,得到候选短语;
分析单元405,用于按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语;
删除单元406,用于当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语,目标候选短语包括主目标候选短语和/或子目标候选短语,子字符串关系指示子目标候选短语由主目标候选短语中的字词构成;
拼接处理单元407,用于将存在交叉字的修正候选短语进行拼接处理,得到目标关键词,交叉字指示在两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
本申请实施例,通过结合语法结构与词性拼接过滤规则对短文本进行关键词提取,提高短文本关键词提取的准确性。
请参阅图5,本申请实施例中提取短文本关键词的装置的另一个实施例包括:
提取单元401,用于对待处理短文本进行关键词预提取处理,获得候选关键词;
获取单元402,用于获取候选关键词的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息,目标标注信息为顺序号为连续性的标注信息;
创建单元403,用于根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词;
合并单元404,用于根据目标标注信息和N元语法信息合并标注关键词,得到候选短语;
分析单元405,用于按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语;
删除单元406,用于当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语,目标候选短语包括主目标候选短语和/或子目标候选短语,子字符串关系指示子目标候选短语由主目标候选短语中的字词构成;
识别子单元4071,用于当识别到两个修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将末端词与始端词分别对应的修正候选短语进行拼接处理,得到初始关键词;
计算子单元4072,用于计算初始关键词的词频-逆文本频率指数TF-IDF值,根据TF-IDF值确定候选关键词;
筛选子单元4073,用于按照预设短语词性拼接规则对候选关键词进行筛选处理,得到目标关键词。
可选的,提取单元401具体用于:通过分词工具对经过删除空格处理的初始待处理短文本进行分词处理,得到多个初始词语;调用预置的词性标注模型对多个初始词语进行词性标注,得到待处理短文本;识别待处理短文本是否存在词性空缺;当识别到待处理短文本不存在词性空缺时,对待处理短文本进行过滤处理,得到候选关键词,过滤处理包括保留词过滤处理、停用词过滤处理和词性过滤处理;当识别到待处理短文本存在词性空缺时,对存在词性空缺的待处理短文本进行词性填充处理,得到填充词语,对填充词语进行过滤处理,得到候选关键词。
可选的,合并单元404具体用于:获取标注关键词的词性,并按照预设过滤规则和词性对标注关键词进行过滤处理,得到目标标注关键词;比较目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;根据目标标注信息中的目标顺序号,获取目标标注关键词中排序在目标词之前的关键词,得到待合并关键词;根据目标顺序号对待合并关键词和目标词进行合并,获得候选短语。
可选的,分析单元405具体用于:通过分析候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,预设词性包括动词、动名词和动词语素,第一待分析短语为词性存在预设词性中至少一项的候选短语,第二待分析短语为词性不为预设词性中的任意一项的候选短语;根据预设词性连接后的词性和第一预设规则对第一待分析短语进行分析,获得目标候选短语;根据第二预设规则和目标词性对第二待分析短语进行分析,获得目标候选短语,目标词性为第二待分析短语的各词性和各词性连接后的词性。
可选的,删除单元406具体用于:将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;将主目标候选短语作为父节点,将子目标候选短语的长度作为分支条件;根据主目标候选短语、子目标候选短语和分支条件,得到子字符串关系识别树;检索目标候选短语在子字符串关系识别树中的位置;若检索到目标候选短语位于子字符串关系识别树中的父节点处,则删除子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;若检索到目标候选短语位于子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,目标子节点为候选子节点后的子节点。
可选的,计算子单元4072具体用于:获取待处理短文本所属领域中的词典和识别关键词,得到参考数据;计算初始关键词在参考数据中的词频-逆文本频率指数TF-IDF值,得到待计算值;按照预设权重值计算待计算值的加权平均值,得到预设阈值;计算待计算值与预设阈值的差值,当差值大于或者等于0时,将对应的初始关键词作为候选关键词。
本申请实施例中的提取短文本关键词的装置在自动问答、话题跟踪、信息检索和产品推荐等领域具有重要作用中,比如在信息检索领域中,需要对输入的检索信息进行关键词提取得到关键词,再通过关键词对待检索数据进行检索以获得目标检索数据,而在对输入的检索信息进行关键词提取得到关键词中可通过本申请实施例的结合语法结构、词性拼接过滤规则和子字符串关系对输入的为短文本的检索信息进行短文本的关键词提取,得到检索信息的修正候选短语,并对修正候选短语进行拼接处理、TF-IDF值计算和预设短语词性拼接规则的筛选处理,得到目标关键词,通过本申请实施例中的提取短文本关键词的装置能够不依赖外部字典将短文本的检索信息中单词和字进行组合,并准确地输出检索信息对应的专属领域内的未登录词,以给短文本的检索信息打上一个表意准确的关键词标签,提高对短文本的关键词提取的准确性,从而提高信息检索领域中对检索信息的检索效率和检索准确性。
上面图4至图5从模块化功能实体的角度对本申请实施例中的提取短文本关键词的装置进行详细描述,下面从硬件处理的角度对本申请实施例中提取短文本关键词的设备进行详细描述。
图6是本申请实施例提供的一种提取短文本关键词的设备的结构示意图,该提取短文本关键词的设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)601(例如,一个或一个以上处理器)和存储器609,一个或一个以上存储应用程序607或数据606的存储介质608(例如一个或一个以上海量存储装置)。其中,存储器609和存储介质608可以是短暂存储或持久存储。存储在存储介质608的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地,处理器601可以设置为与存储介质608通信,在提取短文本关键词的设备600上执行存储介质608中的一系列指令操作。
提取短文本关键词的设备600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统605,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6中示出的提取短文本关键词的设备结构并不构成对提取短文本关键词的设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器601可以执行上述实施例中提取单元401、获取单元402、创建单元403、合并单元404、分析单元405、删除单元406、拼接处理单元407、识别子单元4071、计算子单元4072和筛选子单元4073的功能。
下面结合图6对提取短文本关键词的设备的各个构成部件进行具体的介绍:
处理器601是提取短文本关键词的设备的控制中心,可以按照提取短文本关键词的方法进行处理。处理器601利用各种接口和线路连接整个提取短文本关键词的设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器 609内的数据,执行提取短文本关键词的设备的各种功能和处理数据,从而实现提高短文本关键词提取的准确性的功能。存储介质608和存储器609都是存储数据的载体,本申请实施例中,存储介质608可以是指储存容量较小,但速度快的内存储器,而存储器609可以是储存容量大,但储存速度慢的外存储器。
存储器609可用于存储软件程序以及模块,处理器601通过运行存储在存储器609的软件程序以及模块,从而执行提取短文本关键词的设备600的各种功能应用以及数据处理。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息等)等;存储数据区可存储根据签到管理设备的使用所创建的数据(对待处理短文本进行关键词预提取处理,获得候选关键词等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本申请实施例中提供的提取短文本关键词的方法程序和接收到的数据流存储在存储器中,当需要使用时,处理器601从存储器609中调用。
在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk, SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种提取短文本关键词的方法,其特征在于,包括:
对待处理短文本进行关键词预提取处理,获得候选关键词;
获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语,包括:
获取所述标注关键词的词性,并按照预设过滤规则和所述词性对所述标注关键词进行过滤处理,得到目标标注关键词;
比较所述目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;
根据所述目标标注信息中的目标顺序号,获取所述目标标注关键词中排序在所述目标词之前的关键词,得到待合并关键词;
根据所述目标顺序号对所述待合并关键词和所述目标词进行合并,获得候选短语。
3.根据权利要求1所述的方法,其特征在于,所述按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语,包括:
通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为所述预设词性中的任意一项的候选短语;
根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;
根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。
4.根据权利要求1所述的方法,其特征在于,所述当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成,包括:
将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;
将所述主目标候选短语作为父节点,将所述子目标候选短语的长度作为分支条件;
根据所述主目标候选短语、所述子目标候选短语和所述分支条件,得到子字符串关系识别树;
检索所述目标候选短语在所述子字符串关系识别树中的位置;
若检索到目标候选短语位于所述子字符串关系识别树中的父节点处,则删除所述子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;
若检索到目标候选短语位于所述子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,所述目标子节点为所述候选子节点后的子节点。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同,包括:
当识别到两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同时,将所述末端词与所述始端词分别对应的修正候选短语进行拼接处理,得到初始关键词;
计算所述初始关键词的词频-逆文本频率指数TF-IDF值,根据所述TF-IDF值确定候选关键词;
按照所述预设短语词性拼接规则对所述候选关键词进行筛选处理,得到目标关键词。
6.根据权利要求5所述的方法,其特征在于,所述计算所述初始关键词的词频-逆文本频率指数TF-IDF值,根据所述TF-IDF值确定候选关键词,包括:
获取所述待处理短文本所属领域中的词典和识别关键词,得到参考数据;
计算所述初始关键词在所述参考数据中的词频-逆文本频率指数TF-IDF值,得到待计算值;
按照预设权重值计算所述待计算值的加权平均值,得到预设阈值;
计算所述待计算值与所述预设阈值的差值,当所述差值大于或者等于0时,将对应的初始关键词作为候选关键词。
7.根据权利要求1所述的方法,其特征在于,所述对待处理短文本进行关键词预提取处理,获得候选关键词,包括:
通过分词工具对经过删除空格处理的初始待处理短文本进行分词处理,得到多个初始词语;
调用预置的词性标注模型对所述多个初始词语进行词性标注,得到待处理短文本;
识别所述待处理短文本是否存在词性空缺;
当识别到所述待处理短文本不存在词性空缺时,对所述待处理短文本进行过滤处理,得到候选关键词,所述过滤处理包括保留词过滤处理、停用词过滤处理和词性过滤处理;
当识别到所述待处理短文本存在词性空缺时,对存在词性空缺的所述待处理短文本进行词性填充处理,得到填充词语,对所述填充词语进行所述过滤处理,得到候选关键词。
8.一种提取短文本关键词的装置,其特征在于,所述装置包括:
提取单元,用于对待处理短文本进行关键词预提取处理,获得候选关键词;
获取单元,用于获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
创建单元,用于根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
合并单元,用于根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
分析单元,用于按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
删除单元,用于当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
拼接处理单元,用于将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
9.一种提取短文本关键词的设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的提取短文本关键词的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7中任意一项所述的提取短文本关键词的方法。
CN202010156963.6A 2020-03-09 2020-03-09 提取短文本关键词的方法、装置、设备及存储介质 Pending CN111444330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010156963.6A CN111444330A (zh) 2020-03-09 2020-03-09 提取短文本关键词的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010156963.6A CN111444330A (zh) 2020-03-09 2020-03-09 提取短文本关键词的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111444330A true CN111444330A (zh) 2020-07-24

Family

ID=71627397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010156963.6A Pending CN111444330A (zh) 2020-03-09 2020-03-09 提取短文本关键词的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111444330A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112183089A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 语料分析方法、装置、电子设备和存储介质
CN112487765A (zh) * 2020-11-23 2021-03-12 建信金融科技有限责任公司 一种生成通知文本的方法和装置
CN112632990A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种标签的获取方法、装置、设备及可读存储介质
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置
CN112732893A (zh) * 2021-01-13 2021-04-30 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112908488A (zh) * 2021-02-09 2021-06-04 北京药明津石医药科技有限公司 事件识别方法、装置、计算机设备和存储介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
CN114528838A (zh) * 2022-02-28 2022-05-24 多点(深圳)数字科技有限公司 关键词提取方法、系统、电子设备及可读存储介质
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115114913A (zh) * 2021-03-18 2022-09-27 马上消费金融股份有限公司 一种标注方法、装置、设备和可读存储介质
CN115146191A (zh) * 2022-07-21 2022-10-04 北京天防安全科技有限公司 基于ai进行视频监控资产识别的方法、装置及电子设备
CN116881582A (zh) * 2023-07-18 2023-10-13 北京粉笔蓝天科技有限公司 基于模式匹配和词性标注的报名时间提取方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112183089A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 语料分析方法、装置、电子设备和存储介质
CN112487765A (zh) * 2020-11-23 2021-03-12 建信金融科技有限责任公司 一种生成通知文本的方法和装置
CN112487765B (zh) * 2020-11-23 2022-10-04 中国建设银行股份有限公司 一种生成通知文本的方法和装置
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置
CN112632990B (zh) * 2020-12-31 2024-04-12 中国农业银行股份有限公司 一种标签的获取方法、装置、设备及可读存储介质
CN112632990A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种标签的获取方法、装置、设备及可读存储介质
CN112732893A (zh) * 2021-01-13 2021-04-30 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112732893B (zh) * 2021-01-13 2024-01-19 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112908488A (zh) * 2021-02-09 2021-06-04 北京药明津石医药科技有限公司 事件识别方法、装置、计算机设备和存储介质
CN115114913A (zh) * 2021-03-18 2022-09-27 马上消费金融股份有限公司 一种标注方法、装置、设备和可读存储介质
CN115114913B (zh) * 2021-03-18 2024-02-06 马上消费金融股份有限公司 一种标注方法、装置、设备和可读存储介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
CN114528838A (zh) * 2022-02-28 2022-05-24 多点(深圳)数字科技有限公司 关键词提取方法、系统、电子设备及可读存储介质
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115114915B (zh) * 2022-05-25 2024-04-12 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115146191A (zh) * 2022-07-21 2022-10-04 北京天防安全科技有限公司 基于ai进行视频监控资产识别的方法、装置及电子设备
CN116881582A (zh) * 2023-07-18 2023-10-13 北京粉笔蓝天科技有限公司 基于模式匹配和词性标注的报名时间提取方法
CN116881582B (zh) * 2023-07-18 2024-02-13 北京粉笔蓝天科技有限公司 基于模式匹配和词性标注的报名时间提取方法

Similar Documents

Publication Publication Date Title
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108304468B (zh) 一种文本分类方法以及文本分类装置
WO2017084267A1 (zh) 一种关键词提取方法和装置
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111177375B (zh) 一种电子文档分类方法及装置
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN110096599B (zh) 知识图谱的生成方法及装置
CN112528653B (zh) 短文本实体识别方法和系统
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN118093689A (zh) 基于rpa多模态文档解析与结构化处理系统
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
CN108475265B (zh) 获取未登录词的方法与装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination