CN109388801A - 相似词集合的确定方法、装置和电子设备 - Google Patents

相似词集合的确定方法、装置和电子设备 Download PDF

Info

Publication number
CN109388801A
CN109388801A CN201811157517.6A CN201811157517A CN109388801A CN 109388801 A CN109388801 A CN 109388801A CN 201811157517 A CN201811157517 A CN 201811157517A CN 109388801 A CN109388801 A CN 109388801A
Authority
CN
China
Prior art keywords
text
participle
interdependent
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811157517.6A
Other languages
English (en)
Other versions
CN109388801B (zh
Inventor
陈永环
孙清清
赵云
钱宣统
顾曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811157517.6A priority Critical patent/CN109388801B/zh
Publication of CN109388801A publication Critical patent/CN109388801A/zh
Application granted granted Critical
Publication of CN109388801B publication Critical patent/CN109388801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种相似词集合的确定方法、装置和电子设备,该方法包括:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。

Description

相似词集合的确定方法、装置和电子设备
技术领域
本申请涉及计算机软件技术领域,尤其涉及一种相似词集合的确定方法、装置和电子设备。
背景技术
相似词,乃至跨语种的相似词在反洗钱、跨境禁限售、反洗钱、舆情控制、文本垃圾、内容安全等依赖关键词或者名单进行文本防控的领域,有至关重要的作用。
但是由于语言文化等方面的差异,由于多语言翻译、本地语言风俗化、本地语言社会化等诸多因素,导致对不同国家的语言无法很好的识别和挖掘,从而带了一定的合规监管风险,同时面临不能满足用户体验等多方面的挑战。传统方式通过人工去挖掘夸语种多语种的翻译、以及本地语言风俗化、社会化的挖掘等,一方面挖掘的过程较多的利用了语言专家的专家经验,同时浪费了较多的人力以及带来了国家化成本的增加,另一方面人工挖掘的时效性不能满足风险变化速度,从而导致了一部分风险的漏过,人工经验挖掘的准确度受到经验知识和专家身体状态等各方面的影响,也会带来一些人工误判的风险。
如何提高数据挖掘效率及准确率,成为亟待解决的问题
发明内容
本申请实施例的目的是提供一种相似词集合的确定方法、装置和电子设备,以提高对相似词的挖掘效率。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出了一种相似词集合的确定方法,该方法包括:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
第二方面,提出了一种相似词集合确定装置,该装置包括:
分词模块,对批量文本语料进行分词及文本清洗,得到处理后的批量文本语料;
词性标注模块,对所述处理后的批量文本语料进行词性标注,得到批量文本语料对应的词性标注文本;
词向量模型训练模块,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
第一确定模块,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
第二确定模块,基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
第三方面,提出了一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
由以上本申请实施例提供的技术方案可见,本申请实施例方案至少具备如下一种技术效果:
本申请实施例中,通过基于指定词性的分词进行词向量模型训练和句法依存分析,并对指定词性的目标分词的句法分析结果进行词向量模型筛选,以得到目标分词的相似词集合,从而能够实现相似词的自动化挖掘,并使得挖掘的相似词集合具有较高的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例相似词集合的确定方法流程图。
图2是本申请的一个实施例相似词集合的确定方法的交互流程图。
图3是本申请的一个实施例电子设备的结构示意图。
图4是本申请的一个实施例相似词集合确定装置的结构示意图。
具体实施方式
本申请实施例提供一种相似词集合的确定方法、装置和电子设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请的一个实施例相似词集合的确定方法流程图。图1的方法可由相似词集合确定装置执行。应理解,相似词集合确定装置,可以是一个计算机系统,或者是一个计算机集群,或者是部署在云端的一个应用,本申请实施例对此不作限制。如图1所示,该方法可包括:
S110,对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本。
应理解,本申请实施例的批量文本语料,可来源于互联网的网页文本数据。例如,维基百科、百度百科、搜狗百科等百科网站,或者是论坛、贴吧、购物网站、门户网站等。该网页文本数据,也不限于网站上发布的内容数据,还可包括用户对发布内容的评论数据,等等。当然,应理解,网页文本数据不限于上述提到的数据;本申请实施例的批量文本语料,也不限于来自互联网的网页文本数据,例如还可以来源于电子字词典、论文期刊数据库,等等。
可选地,本申请实施例的批量文本语料中可包括多语言混合的文本语料,所述多语言混合的文本语料中包括一个分词的多种语言的表述分词。例如,在维基百科英文版的“Ban Ki-moon”(潘基文的英文名称)词条中,包括如下内容:“Ban Ki-moon(Hangul:Hanja:潘基文;Korean pronunciation:[pan.ɡi.mun];born 13June 1944)is aSouth Korean diplomat”。其中,“Ban Ki-moon”、“潘基文”、“pan.ɡi.mun”分别是潘基文的英文名称、英文缩写、韩文、汉语、韩文发音。应理解,本申请实施例的方法,不仅适用于同种语言的相似词挖掘中,还可应用于不同语言的相似词挖掘。
可选地,步骤S110具体可实现为:
对批量文本语料进行分词处理及文本清洗得到内容文本;
对所述内容文本进行词性标注,得到所述内容文本对应的词性标注文本。
应理解,在进行分词时,对于英文等语言书写习惯上基本是进行空格分开的,但是对于中文、泰文等语种需要进行分词,比如需要进行泰文挖掘:没有语言经验者基本无法判断由多少个单词组成。分词算法可以采用HMM、CRF等算法。在分词结束后,可对分词后的文本进行清洗,例如停用词的去除,等等。应理解,本申请实施例中,对分词及文本清洗的具体实现方式并不作限制,可采用现有技术,或采用与现有技术不同的其它改进方案。
本申请实施例中,对经过分词及文本清洗后的文本语料进行词性标注,即可得到相应的词性标注文本。
应理解,词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。本申请实施例提到的词性标注,可包括多种语言的词性标注,例如汉语、英语、泰文、俄语、韩语,等等。以汉语为例,在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。
在本申请实施例中,不同语言存在不同的词性分类方式。即使是同一种语言,基于词性分类粒度的不同,也存在不同的词性分类方式。
以英语为例,一种词性分类方式如表1所示:
表1:
以汉语为例,一种词性分类方式如表2所示:表2:
其中,如表2所示,名词还可进一步分为专有名词、抽象名词、方位名词,等等。当然,还可进一步地进行划分,例如,专有名词,还可进一步划分为更小的粒度,例如划分为地名名词、人名名词、物品名名词,等等。
当然,应理解,还可基于语法依存关系分析,定制一套词性标注规则。例如,在进行Stanford-parser依存句法关系分析时,其与词性标注相关的缩写词如表格3所示:
表格3:
以语料“Ban Ki-moon(Hangul:Hanja:潘基文;Koreanpronunciation:[pan.ɡi.mun];born 13June 1944)is a South Korean diplomat.”为例,其词性标注结果可如图2所示,文字下方的英文缩写即为标注的词性,具体含义可参考表1。其标注结果的表达式如下:
(ROOT(S(NP(NP(NNP Ban)(NNP Ki-moon))(PRN(-LRB--LRB-)(VP(VBN)(NP(NP(NNP Hangul))(::)(NP(NNP))(:;)(NP(NNP Hanja))(::)(NP(NNP潘基文))(:;)(NP(JJ Korean)(NN pronunciation))(::)(NP(JJ-LSB-)(NN pan.ɡi.mun)(NNS-RSB-))(:;)(NP(NP(QP(CD born)(CD 13)))(NP-TMP(NNP June)(CD 1944)))))(-RRB--RRB-)))(VP(VBZ is)(NP(DT a)(ADJP(NNP South)(JJ Korean))(NN diplomat)))))。
当然,应理解,在对分词处理及文本清洗得到的内容文本进行词性标注时,可以通过词性标注模型进行标注。该词性标注模型可以是HMM、CNN、DNN、CRF等算法进行训练得到的模型,或者基于其它算法训练得到的模型,本申请实施例对此不作限制。本申请实施例通过词性标注模型对内容文本进行预测,即可得到内容文本对应的词性标注文本。
S120,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练。
可选地,步骤S120具体可实现为:
提取所述词性标注文本中标记为所述指定词性的分词构成指定词性内容文本;
将所述指定词性内容文本输入词向量模型中进行训练,得到基于指定词性的词向量模型。
在本申请实施例中,可基于指定词性,对词性标注文本进行过滤处理,得到只包含指定词性的分词序列,然后基于只包含指定词性的分词序列,进行词向量模型训练。
应理解,为了挖掘某一词性的同义词、社会化风俗化变形,则可在文本中抽取该词性数据成为新的文本数据。比如,可对命名体抽取词性为名词等;然后通过Word2Vec算法进行词向量模型训练,得到每个名词分词的词向量,以便后续评估分词之间的相似度。
word2vec采用的是n元语法模型(n-gram model),包括CBOW模型或者skip-gram模型。其中,CBOW模型能够根据输入目标词周围n-1个词来预测出目标词本身;skip-gram模型则能够根据目标词本身来预测目标词周围有哪些词。一般来说,短文本用skip-gram模型训练效果较好,长文本则用CBOW模型训练效果较好。词向量模型训练的具体实现可参考现有技术。n元语法模型中n的取值为自然数。优选地,n取值为2或3。
本申请实施例的词向量模型训练,只基于指定词性的分词进行训练。即对词性标注文本进行筛选,只保留指定词性的分词文本,作为词向量模型的训练文本。当然,应理解,指定词性的分词,可包括一种或多种指定词性的分词。例如,本申请实施例中,可选择名称分词进行词向量模型训练,或者选择名词和代词进行词向量模型训练,等等。
以图2所示的词性标注文本为例,如果指定词性为NNP,则保留的分词就只有“Ban”“Ki-moon”“Hangul”“Hanja”“潘基文”“June”“South”等几个词。本申请实施例即以“Ban”“Ki-moon”“Hangul”“Hanja”“潘基文”“June”“South”作为词向量的训练文本。
当然,也可同时挖掘几种指定词性的分词进行词向量模型的训练。
S130,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合。
其中,所述依存词集合的每个元素包括分词及对应的依存词。
本申请实施例中,可基于步骤S110的词性标注文本,进行句法依存关系分析,根据词性以及语种语法依存关系标记。
以语料“Ban Ki-moon(Hangul:Hanja:潘基文;Koreanpronunciation:[pan.ɡi.mun];born 13June 1944)is a South Korean diplomat.”为例,其词性标注结果的可视化展示效果可如图2所示,其中分词之间的连接线对应的英文缩写即为分词的依存关系。由于句子较长,为便于展示,在图2中语料的展示图分为上下两部分,其中上半部分的连接线1、2、3分别对应于下半部分的连接线1、2、3。图2提到的分词依存关系缩写的含义可如表4所示:
表4:
特别指出,图2中的nmod:tmnummod,表示同时存在nmod和nummod两种依存关系。
应理解,步骤S130可实现为:
基于目标分词在所述词性标注文本中的句法依存关系,选择第一依存词加入所述目标分词的依存词子集,所述第一依存词为与所述目标分词存在指定依存关系的依存词;
基于所述词性标注文本中的句法依存关系,选择第二依存词加入所述依存词子集,直至所述词性标注文本中不存在未加入所述依存词子集的第二依存词,所述第二依存词为与所述依存词子集的依存词存在指定依存关系的依存词;
将所述目标分词及所述目标分词对应的依存词子集作为所述依存词集合的元素,加入所述依存词集合。
当然,应理解,在确定目标分词的依存子集之前,还可基于所述词性标注文本中的句法依存关系,确定目标分词。
还是以图2所示的词性标注文本为例,如果指定词性为NNP,则保留的分词就只有“Ban”“Ki-moon”“Hangul”“Hanja”“潘基文”“June”“South”等几个词,本申请实施例只考虑这几个词的依存关系,并基于这几个词之间的依存关系确定依存词集合。
基于关系compound,可确定“Ban”“Ki-moon”可合成一个目标分词。
基于dep这一指定依存关系,可建立目标分词“Ban Ki-moon”的依存词子集为{“Hangul”,“Hanja”,“潘基文”},等等。
S140,基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合。
其中,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
可选地,步骤S140可实现为:
确定依存词集合中目标分词及目标分词对应的依存词在词向量模型中的向量差值,所述向量差值用于表示所述目标分词与依存词的相似度;
确定与所述目标分词的向量差值小于第一阈值的依存词为所述目标分词的候选相似词;
基于所述目标分词及所述目标分词的候选相似词确定所述相似词集合。
当然,应理解,如果批量文本语料中包括多语言混合的文本语料,且所述多语言混合的文本语料中包括一个分词的多种语言的表述分词,则最终生成的所述相似词集合可包括目标分词和所述目标分词在其他语言的表述分词。
例如,通过步骤S120训练出来的词向量模型,可以得到“Ban Ki-moon”、“Hangul”、“Hanja”、“潘基文”等的词向量;再通过计算这几次词向量,并根据业务设定阈值可以得到,Ban Ki-moon词条语义最相似词为潘基文。通过语种检测或者简单的用Hangul和Hanja文本意思,即可挖掘出Ban Ki-moon的韩语翻译为:中文翻译为:潘基文。
特别地,如果所述目标分词及所述目标分词的候选相似词为同一语言的分词,基于所述目标分词及所述目标分词的候选相似词确定所述相似词集合,包括:
确定所述目标分词及所述目标分词的候选相似词的编辑距离;
确定与所述目标分词的编辑距离小于第二阈值的候选相似词为所述目标分词的相似词;
基于所述目标分词及所述目标分词的相似词,确定所述相似词集合。
本申请实施例中,通过基于指定词性的分词进行词向量模型训练和句法依存分析,并对指定词性的目标分词的句法分析结果进行词向量模型筛选,以得到目标分词的相似词集合,从而能够实现相似词的自动化挖掘,并使得挖掘的相似词集合具有较高的准确性。
本申请实施例中,基于挖掘得到的相似词集合,即可结合业务场景,比如反洗钱和文本风险等较为依赖名单和关键词进行风险识别的场景,通过文本相关模糊或者精确匹配算法进行文本风险识别。
此外,对于推荐、广告、搜索等场景,本申请实施例的相似词集合还能够识别出BanKi-moon、潘基文为同一人,从而可以进行跨语言多语言的推荐和展示搜索结果,等等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成相似词集合确定装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
上述如本申请图1所示实施例揭示的相似词集合确定装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field -Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现相似词集合确定装置在图1所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
图4是本申请的一个实施例相似词集合确定装置的结构示意图。请参考图4,在一种软件实施方式中,相似词集合确定装置400可包括:
分词模块410,对批量文本语料进行分词及文本清洗,得到处理后的批量文本语料;
词性标注模块420,对所述处理后的批量文本语料进行词性标注,得到批量文本语料对应的词性标注文本;
词向量模型训练模块430,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
第一确定模块440,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
第二确定模块450,基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
相似词集合确定装置400还可执行相似词集合确定装置在图1所示实施例中相应步骤的方法,并实现相似词集合确定装置在图1所示实施例的具体功能,具体实现可参考图1所示实施例。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (12)

1.一种相似词集合的确定方法,包括:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
2.如权利要求1所述的方法,
所述批量文本语料中包括多语言混合的文本语料,所述多语言混合的文本语料中包括一个分词的多种语言的表述分词。
3.如权利要求2所述的方法,
所述相似词集合包括目标分词和所述目标分词在其他语言的表述分词。
4.如权利要求1所述的方法,
对批量文本语料进行分词处理及文本清洗得到内容文本;
对所述内容文本进行词性标注,得到所述内容文本对应的词性标注文本。
5.如权利要求4所述的方法,
对所述内容文本进行词性标注包括:基于预先训练的词性标注模型对所述内容文本进行词性标注。
6.如权利要求1所述的方法,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练,包括:
提取所述词性标注文本中标记为所述指定词性的分词构成指定词性内容文本;
将所述指定词性内容文本输入词向量模型中进行训练,得到基于指定词性的词向量模型。
7.如权利要求6所述的方法,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合包括:
基于目标分词在所述词性标注文本中的句法依存关系,选择第一依存词加入所述目标分词的依存词子集,所述第一依存词为与所述目标分词存在指定依存关系的依存词;
基于所述词性标注文本中的句法依存关系,选择第二依存词加入所述依存词子集,直至所述词性标注文本中不存在未加入所述依存词子集的第二依存词,所述第二依存词为与所述依存词子集的依存词存在指定依存关系的依存词;
将所述目标分词及所述目标分词对应的依存词子集作为所述依存词集合的元素,加入所述依存词集合。
8.如权利要求1所述的方法,基于依存词集合中目标分词及目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,包括:
确定依存词集合中目标分词及目标分词对应的依存词在词向量模型中的向量差值,所述向量差值用于表示所述目标分词与依存词的相似度;
确定与所述目标分词的向量差值小于第一阈值的依存词为所述目标分词的候选相似词;
基于所述目标分词及所述目标分词的候选相似词确定所述相似词集合。
9.如权利要求8所述的方法,如果所述目标分词及所述目标分词的候选相似词为同一语言的分词,基于所述目标分词及所述目标分词的候选相似词确定所述相似词集合,包括:
确定所述目标分词及所述目标分词的候选相似词的编辑距离;
确定与所述目标分词的编辑距离小于第二阈值的候选相似词为所述目标分词的相似词;
基于所述目标分词及所述目标分词的相似词,确定所述相似词集合。
10.一种相似词确定装置,包括:
分词模块,对批量文本语料进行分词及文本清洗,得到处理后的批量文本语料;
词性标注模块,对所述处理后的批量文本语料进行词性标注,得到批量文本语料对应的词性标注文本;
词向量模型训练模块,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
第一确定模块,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
第二确定模块,基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
11.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
12.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;
基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;
基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;
基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。
CN201811157517.6A 2018-09-30 2018-09-30 相似词集合的确定方法、装置和电子设备 Active CN109388801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811157517.6A CN109388801B (zh) 2018-09-30 2018-09-30 相似词集合的确定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811157517.6A CN109388801B (zh) 2018-09-30 2018-09-30 相似词集合的确定方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN109388801A true CN109388801A (zh) 2019-02-26
CN109388801B CN109388801B (zh) 2023-07-14

Family

ID=65419200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811157517.6A Active CN109388801B (zh) 2018-09-30 2018-09-30 相似词集合的确定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN109388801B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992787A (zh) * 2019-04-09 2019-07-09 杭州电子科技大学 一种基于cbow模型和依存句法关系的词向量表示方法
CN110321433A (zh) * 2019-06-26 2019-10-11 阿里巴巴集团控股有限公司 确定文本类别的方法及装置
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110968702A (zh) * 2019-11-29 2020-04-07 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN111091001A (zh) * 2020-03-20 2020-05-01 支付宝(杭州)信息技术有限公司 一种词语的词向量的生成方法、装置及设备
CN111669757A (zh) * 2020-06-15 2020-09-15 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN112559693A (zh) * 2020-12-25 2021-03-26 鼎易创展咨询(北京)有限公司 文本词语的相似词搜索方法、装置、设备和介质
CN113221550A (zh) * 2020-02-06 2021-08-06 百度在线网络技术(北京)有限公司 文本过滤方法、装置、设备和介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306180A (ja) * 1998-04-22 1999-11-05 Oki Electric Ind Co Ltd 自然言語解析のコスト決定方法および装置
KR20030044949A (ko) * 2003-04-24 2003-06-09 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106294845A (zh) * 2016-08-19 2017-01-04 清华大学 基于权重学习和多特征抽取的多情绪分类方法及装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN107609132A (zh) * 2017-09-18 2018-01-19 杭州电子科技大学 一种基于语义本体库中文文本情感分析方法
CN107662617A (zh) * 2017-09-25 2018-02-06 重庆邮电大学 基于深度学习的车载交互控制算法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306180A (ja) * 1998-04-22 1999-11-05 Oki Electric Ind Co Ltd 自然言語解析のコスト決定方法および装置
KR20030044949A (ko) * 2003-04-24 2003-06-09 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106294845A (zh) * 2016-08-19 2017-01-04 清华大学 基于权重学习和多特征抽取的多情绪分类方法及装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备
CN107609132A (zh) * 2017-09-18 2018-01-19 杭州电子科技大学 一种基于语义本体库中文文本情感分析方法
CN107662617A (zh) * 2017-09-25 2018-02-06 重庆邮电大学 基于深度学习的车载交互控制算法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
WANG XINHAO 等: "Chinese word segmentation with maximum entropy and n-gram language model", 《PROCEEDINGS OF THE FIFTH SIGHAN WORKSHOP ON CHINESE LANGUAGE PROCESSING》, pages 138 - 141 *
XU HUA 等: "An initial study of full parsing of clinical text using the Stanford Parser", 《2011 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE WORKSHOPS (BIBMW)》, pages 607 - 614 *
ZHAO YINGGONG 等: "Learning word embeddings from dependency relations", 《2014 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》, pages 123 - 127 *
张琴 等: "融合词嵌入表示特征的实体关系抽取方法研究", 《数据分析与知识发现》, vol. 1, no. 9, pages 8 - 15 *
邵健: "多语言微博Hashtag生成及其应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 141 - 234 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992787B (zh) * 2019-04-09 2023-04-07 杭州电子科技大学 一种基于cbow模型和依存句法关系的词向量表示方法
CN109992787A (zh) * 2019-04-09 2019-07-09 杭州电子科技大学 一种基于cbow模型和依存句法关系的词向量表示方法
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110321433B (zh) * 2019-06-26 2023-04-07 创新先进技术有限公司 确定文本类别的方法及装置
CN110321433A (zh) * 2019-06-26 2019-10-11 阿里巴巴集团控股有限公司 确定文本类别的方法及装置
CN110968702A (zh) * 2019-11-29 2020-04-07 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN110968702B (zh) * 2019-11-29 2023-05-09 北京明略软件系统有限公司 一种事理关系提取方法及装置
CN113221550B (zh) * 2020-02-06 2023-09-29 百度在线网络技术(北京)有限公司 文本过滤方法、装置、设备和介质
CN113221550A (zh) * 2020-02-06 2021-08-06 百度在线网络技术(北京)有限公司 文本过滤方法、装置、设备和介质
CN111091001A (zh) * 2020-03-20 2020-05-01 支付宝(杭州)信息技术有限公司 一种词语的词向量的生成方法、装置及设备
CN111669757B (zh) * 2020-06-15 2023-03-14 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN111669757A (zh) * 2020-06-15 2020-09-15 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN112559693A (zh) * 2020-12-25 2021-03-26 鼎易创展咨询(北京)有限公司 文本词语的相似词搜索方法、装置、设备和介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质
CN113468878B (zh) * 2021-07-13 2024-09-06 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109388801B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN109388801A (zh) 相似词集合的确定方法、装置和电子设备
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
US11714839B2 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN110765770A (zh) 一种合同自动生成方法及装置
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN107993085A (zh) 模型训练方法、基于模型的用户行为预测方法及装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN109344406A (zh) 词性标注方法、装置和电子设备
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN109448793A (zh) 基因序列的权利范围认定、检索及侵权判定方法、系统
CN110019660A (zh) 一种相似文本检测方法及装置
CN103617192B (zh) 一种数据对象的聚类方法和装置
Joshi et al. Distributed word representations improve ner for e-commerce
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置
CN108875743A (zh) 一种文本识别方法及装置
Samha et al. Aspect-based opinion mining from product reviews using conditional random fields
Hosseini et al. Identifying and classifying third-party entities in natural language privacy policies
Shapira et al. Massive multi-document summarization of product reviews with weak supervision
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN114298048A (zh) 命名实体识别方法及装置
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN110427492A (zh) 生成关键词库的方法、装置和电子设备
CN111008519A (zh) 阅读页面的展示方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant