CN108304377B - 一种长尾词的提取方法及相关装置 - Google Patents

一种长尾词的提取方法及相关装置 Download PDF

Info

Publication number
CN108304377B
CN108304377B CN201711462833.XA CN201711462833A CN108304377B CN 108304377 B CN108304377 B CN 108304377B CN 201711462833 A CN201711462833 A CN 201711462833A CN 108304377 B CN108304377 B CN 108304377B
Authority
CN
China
Prior art keywords
word segmentation
segmentation result
context
occurrence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711462833.XA
Other languages
English (en)
Other versions
CN108304377A (zh
Inventor
董超
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711462833.XA priority Critical patent/CN108304377B/zh
Publication of CN108304377A publication Critical patent/CN108304377A/zh
Application granted granted Critical
Publication of CN108304377B publication Critical patent/CN108304377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种长尾词的提取方法及相关装置,所述方法包括:对目标文本进行分词处理,获取多个分词结果;根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;分别获取每个分词结果与该分词结果的上下文的关联度;将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。可见,本申请实施例根据每个分词结果与该分词结果的上下文的关联度,将连续出现的并且关联度较高的分词结果进行合并,将合并后的分词结果作为提取的长尾词,实现了准确地对长尾词进行提取,从而进一步保证后续搜索、关键词提取、语义分析等处理的准确性。

Description

一种长尾词的提取方法及相关装置
技术领域
本申请涉及互联网技术领域,尤其是涉及一种长尾词的提取方法及相关装置。
背景技术
单个的字符(例如中文的汉字、英文的字母)通常是语言的最小组成单元,而词则是由一个或多个字符组成的具有特定语义的组成单元。为了能够更好地对文本进行搜索、关键词提取、语义分析等处理,通常会对文本进行分词处理,也就是对一段本文按照词的组成单元进行划分,得到多个分词结果。
然而在很多实际场景中,单个的分词结果并不能实现完整的意思表达,进而影响后续搜索、关键词提取、语义分析等处理的准确性,而长尾词则是通过多个分词结果之间的合并,实现完整的意思表达。例如,将“今天,北京交响乐团在国家大剧院举办音乐会”进行分词处理,得到的分词结果包括:“今天”、“北京”、“交响”、“乐团”、“在”、“国家”、“大”、“剧院”、“举办”、“音乐”和“会”。可见,其中的长尾词“北京交响乐团”、“国家大剧院”以及“音乐会”都是完整的意思表达,但是却被划分成了多个分词结果。
因此,如何能够准确地对长尾词进行提取,以保证后续搜索、关键词提取、语义分析等处理的准确性,是目前亟待解决的技术问题。
发明内容
本申请解决的技术问题在于提供一种长尾词的提取方法及相关装置,能够准确地对长尾词进行提取,从而保证后续搜索、关键词提取、语义分析等处理的准确性。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种长尾词的提取方法,包括:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
可选的,所述分别获取每个分词结果与该分词结果的上下文的关联度,包括:
分别获取每个分词结果相对于该分词结果的上下文的重要度,以及每个分词结果与该分词结果的上下文的相似度;
根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度。
可选的,分别获取每个分词结果相对于该分词结果的上下文的重要度,包括:
分别获取每个分词结果与该分词结果的上下文的相似度;
分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
可选的,分别获取每个分词结果与该分词结果的上下文的相似度,包括:
分别确定每个分词结果的词向量与该分词结果的相邻分词的词向量之间的相似度,其中,该分词结果的相邻分词包括:该分词结果的上下文中与该分词结果相隔的分词个数小于第二预设个数的分词结果;
根据每个分词结果的词向量,与该分词结果的相邻分词的词向量之间的相似度之和,分别获取每个分词结果与该分词结果的上下文的相似度。
可选的,将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,包括:
将关联度大于预设阈值并且在所述目标文本中连续出现的多个分词结果进行合并。
本申请实施例提供了一种长尾词的提取装置,包括:
分词获取单元,用于对目标文本进行分词处理,获取多个分词结果;
上下文获取单元,用于根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
关联度获取单元,用于分别获取每个分词结果与该分词结果的上下文的关联度;
长尾词提取单元,用于将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
可选的,所述关联度获取单元,包括:
重要度获取单元,用于分别获取每个分词结果相对于该分词结果的上下文的重要度;
相似度获取单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
关联度获取单元,用于根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度。
可选的,所述重要度获取单元,包括:
第一相似度获取子单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
第二相似度获取子单元,用于分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
第一重要度获取子单元,用于分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
第二重要度获取子单元,用于根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
可选的,所述相似度获取单元,包括:
第三相似度获取子单元,用于分别确定每个分词结果的词向量与该分词结果的相邻分词的词向量之间的相似度,其中,该分词结果的相邻分词包括:该分词结果的上下文中与该分词结果相隔的分词个数小于第二预设个数的分词结果;
第四相似度获取子单元,根据每个分词结果的词向量,与该分词结果的相邻分词的词向量之间的相似度之和,分别获取每个分词结果与该分词结果的上下文的相似度。
可选的,所述长尾词提取单元具体用于将关联度大于预设阈值并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
本申请实施例提供了一种电子设备,包括有存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行以下操作的指令:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
本申请实施例提供了一种计算机存储介质,包括计算机程序代码,该计算机程序代码由计算机单元执行,使得该计算机单元:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
通过上述技术方案可知,本申请实施例中,对目标文本进行分词处理,获取多个分词结果;根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;分别获取每个分词结果与该分词结果的上下文的关联度;将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并作为提取的长尾词。可见,本申请实施例根据每个分词结果与该分词结果的上下文的关联度,将连续出现的并且关联度较高的分词结果进行合并,将合并后的分词结果作为提取的长尾词,实现了准确地对长尾词进行提取,从而进一步保证后续搜索、关键词提取、语义分析等处理的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种方法实施例的流程示意图;
图2为本申请实施例提供的一种无向权重图的示意图;
图3为本申请实施例提供的一种关联度分布图的示意图;
图4为本申请实施例提供的一种装置实施例的结构示意图。
具体实施方式
长尾词的特征是比较长,通常指的是由至少两个词组成的,并且具有完整的意思表达的词语或者短语,例如,“国家大剧院”、“男士衬衫”等都属于长尾词。在很多实际场景中,准确地对长尾词进行提取,对搜索、关键词提取、语义分析等处理具有重要意义。
目前在对文本进行分词处理时,通常是对一段本文按照词的组成单元进行划分,得到多个分词结果。例如,将“今天,北京交响乐团在国家大剧院举办音乐会”进行分词处理,得到的分词结果包括:“今天”、“北京”、“交响”、“乐团”、“在”、“国家”、“大”、“剧院”、“举办”、“音乐”和“会”。可见,其中的长尾词“北京交响乐团”、“国家大剧院”以及“音乐会”都是完整的意思表达,但是却被划分成了多个分词结果。
本申请实施例解决的技术问题在于提供一种长尾词的提取方法及相关装置,能够准确地对长尾词进行提取,从而保证后续搜索、关键词提取、语义分析等处理的准确性。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参阅图1,本申请实施例提供了长尾词的提取方法的一种方法实施例。本实施例的所述方法,包括:
S101:对目标文本进行分词处理,获取多个分词结果。
本步骤中可以按照现有的任一种分词处理技术,对目标文本进行分词处理。例如,可以通过将目标文本与词库进行匹配,实现对目标文本进行分词处理,并且获得经分词处理后的多个分词结果。
例如,将目标文本“今天,北京交响乐团在国家大剧院举办音乐会”进行分词处理,得到的分词结果包括:“今天”、“北京”、“交响”、“乐团”、“在”、“国家”、“大”、“剧院”、“举办”、“音乐”和“会”。
其中,在对目标文本进行分词处理之前,可以对目标文本进行预处理,例如去除目标文本中的标点符号。
S102:根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文。
在本申请实施例中,每个分词结果的上下文,可以包括与该分词结果相隔的分词个数小于预设个数的分词结果。仍以目标文本为“今天,北京交响乐团在国家大剧院举办音乐会”为例,当预设个数为5时,分词结果“北京”的上下文包括与“北京”相隔的分词个数小于5的分词结果,即包括分词结果:“今天”(间隔的分词个数为1)、“交响”(间隔的分词个数为1)、“乐团”(间隔的分词个数为2)、“在”(间隔的分词个数为3)和“国家”(间隔的分词个数为4)。
S103:分别获取每个分词结果与该分词结果的上下文的关联度。
仍以目标文本为“今天,北京交响乐团在国家大剧院举办音乐会”为例,对于分词结果“北京”来说,获取分词结果“北京”与“北京”的上下文,即分词结果:“今天”、“交响”、“乐团”、“在”和“国家”的关联度。
其中,每个分词结果与该分词结果的上下文的关联度,用于反映每个分词结果与该分词结果的上下文之间的相关程度,可以理解的是,关联度越高,说明该分词结果越有可能与该分词结果的上下文构成长尾词。
在一种可选的实施例中,关联度通过分词结果的重要度以及相似度进行表示。具体地,每个分词结果与该分词结果的上下文的关联度,可以包括:每个分词结果相对于该分词结果的上下文的重要度,以及每个分词结果与该分词结果的上下文的相似度。
S104:将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
在一种可选的实施例中,预设条件包括关联度大于预设阈值,因此本步骤可以将根据S103获得的关联度大于预设阈值并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。其中,需要说明的是,进行合并的每个分词结果,都需要满足该分词结果与该分词结果的上下文的关联度大于预设阈值。
例如,对于分词结果“北京”、分词结果“交响”以及分词结果“乐团”这3个分词结果,满足以下条件:根据S103获取的分词结果“北京”与其上下文的关联度,分词结果“交响”与其上下文的关联度,以及分词结果“乐团”与其上下文的关联度均大于预设阈值,并且这3个分词结果在所述目标文本中连续出现,即这3个分词结果在目标文本中为连续的上下文,因此将这3个分词结果进行合并,得到长尾词:“北京交响乐团”。
通过上述技术方案可知,本申请实施例根据每个分词结果与该分词结果的上下文的关联度,将连续出现的并且关联度较高的分词结果进行合并,将合并后的分词结果作为提取的长尾词,实现了准确地对长尾词进行提取,从而进一步保证后续搜索、关键词提取、语义分析等处理的准确性。
在本申请实施例中,关联度用于反映每个分词结果与该分词结果的上下文之间的相关程度,在一种可选的实施例中,可以通过分词结果的重要度以及相似度进行表示。下面提供关联度的一种示例性的获取方式。需要说明的是,本申请实施例对关联度的获取方式并不加以限定。
可选的,S103中的分别获取每个分词结果与该分词结果的上下文的关联度,包括:
S1031:分别获取每个分词结果相对于该分词结果的上下文的重要度。
本申请实施例中,可以建立分词结果的无向权重图,通过图挖掘算法计算分词结果的重要度,下面具体说明。
(a)建立分词结果的无向权重图G=(V,E)。
集合V包括多个节点,每个节点对应一个分词结果。具体地,S101中获取到多个分词结果,可以对S101获取到的多个分词结果进行去重处理,得到去重处理后的分词结果{w1,w2,…wm},建立集合V,集合V中的每个节点对应{w1,w2,…wm}中的一个分词结果。例如,集合V可以如图2所示。
集合E为分词结果对应的节点之间的连线构成的集合。其中,可以将分词结果与该分词结果的上下文进行连线。下面具体说明。
每个分词结果的上下文,可以包括与该分词结果间隔的分词个数小于第一预设个数的分词结果。具体地,本申请实施例可以通过设置窗口的方式获取分词结果的上下文,并对该分词结果与该分词结果的上下文进行连线。例如,S101中获取到n个分词结果:{w1,w2,…wn},设置窗口大小k,将窗口在n个分词结果中从前向后移动,每次移动一个分词结果的距离,总共有n-k+1个窗口,并且每个窗口包括k个分词结果。仍以目标文本“今天,北京交响乐团在国家大剧院举办音乐会”为例,k=5时,第一个窗口包括:分词结果“今天”、“北京”、“交响”、“乐团”以及“在”,第二个窗口包括:分词结果“北京”、“交响”、“乐团”、“在”以及“国家”,以此类推。其中,每个窗口中的分词结果,可以两两互为同现分词。例如图2所示,第一个窗口中的5个分词结果,两两互为同现分词,并且同现分词对应的节点之间相互连线,对每个窗口中,分别对同现分词对应的节点进行连线之后,即获得集合E。
对集合E进行权重的计算,其中权重weight的计算公式可以如下:
weightij=cos(vectori,vectorj)
其中,vectori为分词结果i的词向量,vectorj为分词结果j的词向量,weightij为分词结果i与分词结果j对应的节点之间的连线的权重,实际上即为分词结果i与分词结果j的相似度。本申请实施例中,词向量(英文:Word-Embedding)可以由预先训练好的模型来获得,具体可以利用word2vec工具获得。
(b)通过图挖掘算法计算分词结果的重要度。
在建立分词结果的无向权重图G=(V,E)之后,可以利用图挖掘算法计算分词结果的重要度。
具体地,在本步骤中,可以首先分别获取每个分词结果与该分词结果的上下文的相似度;分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;根据所述每个分词结果与该分词结果的上下文的相似度、每个分词结果的同现分词与该同现分词的上下文的相似度,以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。下面具体说明。
利用权重weight的计算公式,能够获取每个分词结果与该分词结果的上下文的相似度。例如,可以分别计算分词结果“北京”与该分词结果的同现分词“今天”、“交响”、“乐团”、“在”以及“国家”的相似度。
利用权重weight的计算公式,能够获取每个分词结果的同现分词与该同现分词的上下文的相似度。例如,对于分词结果“北京”,可以分别计算该分词结果的同现分词“今天”、“交响”、“乐团”、“在”以及“国家”,与同现分词的上下文的相似度。例如,利用权重weight的计算公式,计算同现分词“今天”与同现分词“今天”的同现分词“北京”、“交响”、“乐团”以及“在”的相似度。
需要说明的是,除了权重weight的计算公式之外,可以采用任何一种词向量的相似度计算方式,本申请实施例对此并不加以限定。
分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度,例如对于分词结果“北京”,可以分别计算该分词结果的同现分词“今天”、“交响”、“乐团”、“在”以及“国家”,相对于该同现分词的上下文的重要度。
根据所述每个分词结果与该分词结果的上下文的相似度、每个分词结果的同现分词与该同现分词的上下文的相似度,以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
例如对于分词结果“北京”,根据分词结果“北京”与该分词结果“北京”的每个同现分词的相似度、分词结果“北京”的同现分词“今天”、“交响”、“乐团”、“在”以及“国家”分别与该同现分词的每个同现分词的相似度(例如同现分词“今天”与同现分词“今天”的每个同现分词的相似度)、以及分词结果“北京”的同现分词“今天”、“交响”、“乐团”、“在”以及“国家”相对于该同现分词的上下文的重要度,迭代计算分词结果“北京”相对于该分词结果“北京”的上下文的重要度。
下面对迭代计算的一种计算方式进行示例性说明。
任一个分词结果相对于该分词结果的上下文的重要度,具体可以根据以下方式计算:
获取该分词结果的每个同现分词分别对应的重要度权值;其中,该分词结果的任一个同现分词对应的重要度权值为第一相似度与第二相似度之和的比值,其中,第一相似度为该分词结果与该同现分词的相似度,第二相似度为该同现分词与该同现分词的每个同现分词的相似度。举例说明,对于分词结果“北京”和该分词结果的其中一个同现分词“今天”,获取分词结果“北京”与同现分词“今天”的相似度,作为第一相似度,获取同现分词“今天”与同现分词“今天”的每个同现分词的相似度,例如同现分词“今天”与同现分词“今天”的同现分词“交响”的相似度,作为第二相似度,获取所有第二相似度之和,将第一相似度与第二相似度之和的比值,作为同现分词“今天”对应的重要度权值,重复上述过程,能够获取每个同现分词分别对应的重要度权值。
获取该分词结果的每个同现分词分别对应的重要度权值,与该分词结果的每个同现分词相对于该同现分词的上下文的重要度的乘积,将获取的所有乘积之和,作为最终计算出的该分词结果相对于该分词结果的上下文的重要度。举例说明,对于分词结果“北京”,获取分词结果“北京”的一个同现分词“今天”对应的重要度权值,以及该同现分词“今天”相对于该同现分词的上下文的重要度,将该重要度权值与重要度进行乘积运算,得到两者的乘积,根据类似方式计算分词结果“北京”的每个同现分词“今天”、“交响”、“乐团”、“在”以及“国家”分别对应的乘积,将所有的乘积之和作为分词结果“北京”相对于该分词结果的上下文的重要度。
其中,需要说明的是,可以按照根据分词结果在目标文档中的出现位置,迭代计算每个分词结果相对于该分词结果的上下文的重要度。例如,设置每个分词结果相对于该分词结果的上下文的重要度的初始值,例如全部设置为1,计算目标文档中第一个出现的分词结果相对于该分词结果的上下文的重要度,例如计算分词结果“今天”的重要度,其中会使用到分词结果“北京”等的重要度,由于并未计算分词结果“北京”的重要度,在计算分词结果“今天”的重要度时使用分词结果“北京”的重要度的初始值1。在计算出分词结果“今天”的重要度之后,替换分词结果“今天”的重要度的初始值,在计算分词结果“北京”的重要度时,使用计算出的分词结果“今天”的重要度。
上述迭代计算具体可以通过以下公式表示:
Figure BDA0001530518640000111
其中,上述公式用于计算分词结果i相对于分词结果i的上下文的重要度WVi,分词结果j属于集合Con(Vi),集合Con(Vi)为分词结果i的同现分词的集合,分词结果k属于集合Con(Vj),Con(Vj)为分词结果j的同现分词的集合,WVj为分词结果j相对于分词结果j的上下文的重要度,d为常数参数,可以在0-1之间取值,weightij为分词结果i与分词结果j的相似度,即相当于所述第一相似度,weightj,k为分词结果j与分词结果k的相似度,即相当于所述第二相似度。其中,每个分词结果的重要度的初始值可以为固定常数,例如为1,通过上述公式迭代计算出每个分词结果的重要度。
S1032:分别获取每个分词结果与该分词结果的上下文的相似度。
可选的,分别确定每个分词结果的词向量与该分词结果的相邻分词的词向量之间的相似度,其中,该分词结果的相邻分词包括:该分词结果的上下文中与该分词结果间隔的分词个数小于第二预设个数的分词结果。例如,设置窗口大小c=2,对于分词结果i,获取该分词结果i的前2个分词结果以及后2个分词结果,作为该分词结果i的相邻分词:CDi=(wi-2,wi-1,wi+1,wi+2)。
根据每个分词结果的词向量,与该分词结果的相邻分词的词向量之间的相似度之和,分别获取每个分词结果与该分词结果的上下文的相似度。例如,利用以下公式能够计算分词结果i与分词结果i的上下文的相似度:
Figure BDA0001530518640000121
其中,分词结果j属于集合CDi,集合CDi为分词结果i的相邻分词的集合,weightij为分词结果i与分词结果j的相似度。
S1033:根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度。
例如,将每个分词结果与相对于该分词结果的上下文的重要度,与每个分词结果与该分词结果的上下文的相似度进行乘积运算,得到每个分词结果与该分词结果的上下文的关联度。具体地,关联度的计算公式如下:
Figure BDA0001530518640000122
其中,CDWi为分词结果i与分词结果i的上下文的关联度,WVi为分词结果i相对于分词结果i的上下文的重要度,weightij为分词结果i与分词结果j的相似度。
通过上述方法能够计算出每个分词结果的关联度,并且可以进一步绘制关联度分布图,其中,横坐标为分词结果,纵坐标为关联度。例如关联度分布图可以如图3所示,其中对于长尾词“北京交响乐团”、“国家大剧院”以及“音乐会”,分别对应关联度的峰值,并且包括一个骤升点和一个骤降点。从该分布图中可以看出,通过设置预设阈值,能够实现长尾词的提取。其中,可以在关联分布图中加入目标文本中出现的标点符号,并且标点符号对应的关联度可以设置为0。
具体地,根据计算出的关联度,抽取出满足以下条件的多个分词结果并进行合并,从而得到长尾词:
在所述目标文本中连续出现,也就是在目标文本中为连续的上下文,并且每个分词结果都需要满足f(wi)>0,其中f(wi)=CDWi-δ,CDWi为分词结果i与分词结果i的上下文的关联度,δ为预设阈值,可以通过经验设定。
对应上述方法实施例,本申请提供了对应的装置实施例,下面具体说明。
请参阅图4,本申请实施例提供了长尾词的提取装置的一种装置实施例。
本实施例的所述装置包括:分词获取单元401、上下文获取单元402、关联度获取单元403和长尾词提取单元404。
分词获取单元401,用于对目标文本进行分词处理,获取多个分词结果;
上下文获取单元402,用于根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
关联度获取单元403,用于分别获取每个分词结果与该分词结果的上下文的关联度;
长尾词提取单元404,用于将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
可选的,所述关联度获取单元,包括:
重要度获取单元,用于分别获取每个分词结果相对于该分词结果的上下文的重要度;
相似度获取单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
关联度获取单元,用于根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度。
可选的,所述重要度获取单元,包括:
第一相似度获取子单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
第二相似度获取子单元,用于分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
第一重要度获取子单元,用于分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
第二重要度获取子单元,用于根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
可选的,所述相似度获取单元,包括:
第三相似度获取子单元,用于分别确定每个分词结果的词向量与该分词结果的相邻分词的词向量之间的相似度,其中,该分词结果的相邻分词包括:该分词结果的上下文中与该分词结果相隔的分词个数小于第二预设个数的分词结果;
第四相似度获取子单元,根据每个分词结果的词向量,与该分词结果的相邻分词的词向量之间的相似度之和,分别获取每个分词结果与该分词结果的上下文的相似度。
可选的,所述长尾词提取单元具体用于将关联度大于预设阈值并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
在示例性实施例中,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行任一种上述方法实施例的指令。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种长尾词的提取方法,所述方法包括:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词。
例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,物流管理服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种长尾词的提取方法,其特征在于,包括:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词;
所述分别获取每个分词结果与该分词结果的上下文的关联度,包括:
分别获取每个分词结果相对于该分词结果的上下文的重要度,以及每个分词结果与该分词结果的上下文的相似度;
根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度;
所述分别获取每个分词结果相对于该分词结果的上下文的重要度,包括:
分别获取每个分词结果与该分词结果的上下文的相似度;
分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
2.根据权利要求1所述的提取方法,其特征在于,分别获取每个分词结果与该分词结果的上下文的相似度,包括:
分别确定每个分词结果的词向量与该分词结果的相邻分词的词向量之间的相似度,其中,该分词结果的相邻分词包括:该分词结果的上下文中与该分词结果相隔的分词个数小于第二预设个数的分词结果;
根据每个分词结果的词向量,与该分词结果的相邻分词的词向量之间的相似度之和,分别获取每个分词结果与该分词结果的上下文的相似度。
3.根据权利要求1至2任一项所述的提取方法,其特征在于,将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,包括:
将关联度大于预设阈值并且在所述目标文本中连续出现的多个分词结果进行合并。
4.一种长尾词的提取装置,其特征在于,包括:
分词获取单元,用于对目标文本进行分词处理,获取多个分词结果;
上下文获取单元,用于根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
关联度获取单元,用于分别获取每个分词结果与该分词结果的上下文的关联度;
长尾词提取单元,用于将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词;
所述关联度获取单元,包括:
重要度获取单元,用于分别获取每个分词结果相对于该分词结果的上下文的重要度;
相似度获取单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
关联度获取单元,用于根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度;
所述重要度获取单元,包括:
第一相似度获取子单元,用于分别获取每个分词结果与该分词结果的上下文的相似度;
第二相似度获取子单元,用于分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
第一重要度获取子单元,用于分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
第二重要度获取子单元,用于根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
5.一种电子设备,其特征在于,包括有存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行以下操作的指令:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词;
所述分别获取每个分词结果与该分词结果的上下文的关联度,包括:
分别获取每个分词结果相对于该分词结果的上下文的重要度,以及每个分词结果与该分词结果的上下文的相似度;
根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度;
所述分别获取每个分词结果相对于该分词结果的上下文的重要度,包括:
分别获取每个分词结果与该分词结果的上下文的相似度;
分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
6.一种计算机存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由计算机单元执行,使得该计算机单元:
对目标文本进行分词处理,获取多个分词结果;
根据每个分词结果在所述目标文本的出现位置,分别获取每个分词结果的上下文;
分别获取每个分词结果与该分词结果的上下文的关联度;
将关联度满足预设条件并且在所述目标文本中连续出现的多个分词结果进行合并,作为提取的长尾词;
所述分别获取每个分词结果与该分词结果的上下文的关联度,包括:
分别获取每个分词结果相对于该分词结果的上下文的重要度,以及每个分词结果与该分词结果的上下文的相似度;
根据所述重要度和所述相似度,分别获取每个分词结果与该分词结果的上下文的关联度;
所述分别获取每个分词结果相对于该分词结果的上下文的重要度,包括:
分别获取每个分词结果与该分词结果的上下文的相似度;
分别获取每个分词结果的同现分词与该同现分词的上下文的相似度;每个分词结果的同现分词为与该分词结果相隔的分词个数小于第一预设个数的分词结果;
分别获取每个分词结果的同现分词相对于该同现分词的上下文的重要度;
根据所述每个分词结果与该分词结果的上下文的相似度、所述每个分词结果的同现分词与该同现分词的上下文的相似度、以及所述每个分词结果的同现分词相对于该同现分词的上下文的重要度,迭代获取每个分词结果相对于该分词结果的上下文的重要度。
CN201711462833.XA 2017-12-28 2017-12-28 一种长尾词的提取方法及相关装置 Active CN108304377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711462833.XA CN108304377B (zh) 2017-12-28 2017-12-28 一种长尾词的提取方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711462833.XA CN108304377B (zh) 2017-12-28 2017-12-28 一种长尾词的提取方法及相关装置

Publications (2)

Publication Number Publication Date
CN108304377A CN108304377A (zh) 2018-07-20
CN108304377B true CN108304377B (zh) 2021-08-06

Family

ID=62867638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711462833.XA Active CN108304377B (zh) 2017-12-28 2017-12-28 一种长尾词的提取方法及相关装置

Country Status (1)

Country Link
CN (1) CN108304377B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
CN109800428B (zh) * 2018-12-28 2023-01-13 东软集团股份有限公司 一种为语料标注分词结果的方法、装置、设备及存储介质
CN112445959A (zh) * 2019-08-15 2021-03-05 北京京东尚科信息技术有限公司 检索方法、检索装置、计算机可读介质及电子设备
CN111027316A (zh) * 2019-11-18 2020-04-17 大连云知惠科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN112131866B (zh) * 2020-09-25 2024-06-14 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质
CN113032683B (zh) * 2021-04-28 2021-12-24 玉米社(深圳)网络科技有限公司 一种网络推广中快速分词的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062001A1 (en) * 1998-05-29 1999-12-02 Microsoft Corporation Word segmentation in chinese text
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106528616A (zh) * 2016-09-30 2017-03-22 厦门快商通科技股份有限公司 一种人机交互过程中的语言纠错方法及系统
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062001A1 (en) * 1998-05-29 1999-12-02 Microsoft Corporation Word segmentation in chinese text
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN106528616A (zh) * 2016-09-30 2017-03-22 厦门快商通科技股份有限公司 一种人机交互过程中的语言纠错方法及系统
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于统计学习的中文分词改进及其在面向应用分词中的应用;巫黄旭;《中国优秀硕士学位论文全文数据库》;20140116(第02期);I138-932 *
巫黄旭.基于统计学习的中文分词改进及其在面向应用分词中的应用.《中国优秀硕士学位论文全文数据库》.2014,(第02期),I138-932. *

Also Published As

Publication number Publication date
CN108304377A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN105224640B (zh) 一种提取观点的方法和设备
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN106874435B (zh) 用户画像构建方法和装置
CN110210028B (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN103885608A (zh) 一种输入方法及系统
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN107679119B (zh) 生成品牌衍生词的方法和装置
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN108269122B (zh) 广告的相似度处理方法和装置
CN106445915B (zh) 一种新词发现方法及装置
CN107885717B (zh) 一种关键词提取方法及装置
CN103971684A (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN104866308A (zh) 一种场景图像的生成方法及装置
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN105096934A (zh) 构建语音特征库的方法、语音合成方法、装置及设备
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN110147558B (zh) 一种翻译语料处理的方法和装置
CN108052509A (zh) 一种文本相似度计算方法、装置及服务器
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN112328735A (zh) 热点话题确定方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant