CN116151266A - 新词发现方法及装置、电子设备、存储介质 - Google Patents
新词发现方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN116151266A CN116151266A CN202211316094.4A CN202211316094A CN116151266A CN 116151266 A CN116151266 A CN 116151266A CN 202211316094 A CN202211316094 A CN 202211316094A CN 116151266 A CN116151266 A CN 116151266A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- candidate
- initial candidate
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 57
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 72
- 238000001914 filtration Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 18
- 230000002829 reductive effect Effects 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000002673 Dioscorea communis Nutrition 0.000 description 3
- 241000544230 Dioscorea communis Species 0.000 description 3
- 208000003351 Melanosis Diseases 0.000 description 3
- 208000035753 Periorbital contusion Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010014970 Ephelides Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种新词发现方法及装置、电子设备、存储介质,属于自然语言处理领域。该新词生成方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个初始候选词的特征属性信息,并根据特征属性信息从多个初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合,特征属性信息是用于表征初始候选词的特征的信息;确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据第一候选词集合和第二候选词集合,确定目标新词。根据本申请的实施例能够提高新词的准确性,并且还能减少遗漏的新词。
Description
技术领域
本申请涉及自然语言处理领域,特别涉及一种新词发现方法及装置、电子设备、存储介质。
背景技术
在自然语言领域的实际应用中,有些场景需要确定具备新的特定含义的词语,这些具备新的特定含义的词语即为新词。例如,针对某些特定领域,需要对对应的文本或语料进行处理,以发现属于该领域的新词。
在相关技术中,通常只依赖于文本或语料中字符串的统计特征来发现新词,未充分考虑其他因素对新词发现的影响,从而可能导致确定的新词准确性不高,或者遗漏部分新词。
发明内容
本申请提供一种新词发现方法及装置、电子设备、存储介质,可以提高新词的准确性,并且还能减少遗漏的新词。
第一方面,本申请提供了一种新词发现方法,该新词发现方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
第二方面,本申请提供了一种新词发现装置,该新词发现装置包括:分词模块,用于对待处理文本进行分词处理,获得多个初始候选词;第一筛选模块,用于确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;第二筛选模块,用于确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;确定模块,用于根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的新词发现方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的新词发现方法。
本申请所提供的实施例,首先,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候选词的特征属性信息,从初始候选词中筛选出一个或多个第一中间候选词,构成第一候选词集合,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;最后,通过第一候选词集合和第二候选词集合共同确定目标新词,而且,由于第一候选词集合中的第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二候选词集合中的第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一候选词集合和第二候选词集合共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本申请实施例提供的一种新词发现方法的流程图;
图2为本申请实施例提供的一种新词发现方法的流程图;
图3为本申请实施例提供的一种新词发现方法的工作过程示意图;
图4为本申请实施例提供的一种新词发现装置的框图;
图5为本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在相关技术中,通过对文本进行分词处理,可以划分出多种词汇,比如表示情感的词汇(例如,喜欢、厌恶、后悔莫及等);表示动作的词汇(例如,指手划脚、手忙脚乱、手舞足蹈等)。但是,对特定领域的词汇进行分词处理效果较差,无法较为准确地切分文本以获得准确词汇。而且,在新词发现相关技术中,针对未记录在词库中的字串,通常通过计算该字串的互信息熵,选择信息值较高的字串作为新词输出。但是,这种方式的准确率较低。
有鉴于此,本申请实施例提供一种新词发现方法,首先,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候选词的特征属性信息,从初始候选词中筛选出第一中间候选词,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出第二中间候选词;最后,通过第一中间候选词和第二中间候选词共同确定目标新词,而且,由于第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一中间候选词和第二中间候选词共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性。
根据本申请实施例的新词发现方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。服务器可以是独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。
第一方面,本申请实施例提供一种新词发现方法。
图1为本申请实施例提供的一种新词发现方法的流程图。参照图1,该新词发现方法包括:
在步骤S11中,对待处理文本进行分词处理,获得多个初始候选词。
其中,分词是自然语言处理的基础,其是指将语句中的词汇按照含义进行切分,从而将一个文本序列切分成一个个具有单独含义的词语。换言之,将待处理文本中的词汇按照含义进行切分,获得的多个分词即为初始候选词。
在一些可选的实现方式中,待处理文本包括中文文本和/或英文文本。其中,对于英文文本而言,由于英文单词之间具有天然的分隔符,因此,根据英文文本中的分隔符即可较为便捷地进行分词处理。对于中文文本而言,词是承载语义的最小单元,由词构成语句,又由语句构成篇章,由于中文文本由连续的字序列构成,词与词之间没有天然的分隔符,因此,通常需要借助专用的分词工具、分词模型等进行中文分词处理。
示例性地,将待处理文本输入N元(Ngram)模型中进行分词处理,输出结果包括多个初始候选词。其中,Ngram模型是一种统计语言模型,其将自然语言句子视作n-1阶马尔可夫模型,规定句子中某词出现的概率只同它前面出现的n-1个词相关,常见的Ngram模型包括一元模型、二元模型、三元模型等。
需要说明的是,以上对于分词处理方法仅是举例说明,本申请实施例对此不作限定。
还需要说明的是,待处理文本的分词结果是否准确,对后续的新词发现处理具有重要影响。通常情况下,分词结果越准确,则发现的新词的准确性也越高,同时还能尽量减少遗漏的新词,反之,则会导致新词准确性较低,而且可能遗漏部分新词。
在步骤S12中,确定各个初始候选词的特征属性信息,并根据特征属性信息从多个初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合。
在一些可选的实现方式中,特征属性信息是用于表征初始候选词的特征的信息。而且,一个初始候选词可以具有多种特征属性信息,以从对应的多个维度表征该初始候选词的特征。
在一些可选的实现方式中,特征属性信息包括词频属性信息、熵(Entropy)属性信息和点间互(Pointwise Mutual Information,PMI)属性信息中的至少一种。其中,词频属性信息从初始候选词的出现频次维度描述其特征,熵属性信息从信息量维度描述其特征,点间互属性信息从字符关联强度维度描述其特征。
示例性地,词频属性信息是根据初始候选词的出现次数确定的信息,熵属性信息是根据初始候选词的信息熵确定的信息,点间互属性信息是根据初始候选词中多个字符串之间的点间互信息确定的信息。
在一些可选的实现方式中,初始候选词的特征属性信息包括词频属性信息、熵属性信息和点间互属性信息,其中,词频属性信息包括词频值,熵属性信息包括信息熵值,点间互属性信息包括点间互值。相应的,步骤S12包括:根据各个初始候选词的词频值、信息熵值和点间互值,确定各个初始候选词的加权属性值,并根据初始候选词的加权属性值从多个初始候选词中筛选出大于预设加权阈值的初始候选词作为第一中间候选词,并基于筛选出来的第一中间候选词构成第一候选词集合。其中,第一中间候选词的数量可能是一个或多个。
在一些可选的实现方式中,步骤S12包括:比较各个初始候选词的词频值和预设词频阈值,得到各个初始候选词的词频比较结果,比较各个初始候选词的信息熵值和预设信息熵阈值,得到各个初始候选词的熵比较结果,比较各个初始候选词的点间互值和预设点间互阈值,得到各个初始候选词的点间互比较结果,并根据各个初始候选词的词频比较结果、熵比较结果和点间互比较结果,从多个初始候选词中筛选出一个或多个第一中间候选词。
由此可知,在步骤S12中,从初始候选词的特征属性维度出发,从多个初始候选词中筛选出满足特征属性要求的初始候选词作为第一中间候选词。若初始候选词对应集合A,第一中间候选词构成第一候选词集合A1,则A1属于A的子集。
在步骤S13中,确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合。
其中,语义相似度是用于衡量待处理文本与对应的初始候选词在语义层面的相似度的指标。
在一些可选的实现方式中,待处理文本包括多个语句,与之相应的,在步骤S13中,以单个语句为单位,确定该语句与对应的初始候选词之间的语义相似度,进而根据该语义相似度从对应的初始候选词中筛选出第二中间候选词。其中,与语句对应的初始候选词是指通过对该语句进行分词处理获得的一个或多个初始候选词,即一个语句可以对应一个或多个初始候选词。
在一些可选的实现方式中,为了便于确定语义相似度,可以将语句和初始候选词转换为对应的向量,通过计算两个向量之间的余弦相似度、欧氏距离、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、杰卡德相似系数(Jaccard Coefficient)、皮尔森相关系数(Pearson Correlation Coefficient)中的一种或多种,并根据计算结果确定对应的语义相似度。
在一些可选的实现方式中,步骤S13包括:将各个语句转换为对应的语句向量;将与各个语句对应的初始候选词,转换为与各个语句对应的候选词向量;根据具有对应关系的语句向量和候选词向量,确定语句和语句对应的初始候选词之间的语义相似度;根据语义相似度和预设筛选条件,确定第二中间候选词,预设筛选条件为用于从初始候选词中筛选出与语句之间的语义相似度符合预设要求的第二中间候选词。
需要说明的是,语句向量与候选词向量之间的对应关系是基于语句与初始候选词之间的对应关系确定的。例如,对语句S1进行分词处理,获得的初始候选词包括a1和a2,则语句S1与初始候选词a1、a2具有对应关系;进一步地,若将语句S1转换为语句向量v1,将初始候选词a1、a2转换为候选词向量v2,则由于语句S1与初始候选词a1、a2之间具有对应关系,使得语句向量v1与候选词向量v2之间也具有对应关系。
由此可知,在步骤S13中,从初始候选词与待处理文本之间的语义相似度出发,从多个初始候选词中筛选出满足语义相似度要求的初始候选词作为第二中间候选词。若初始候选词对应集合A,第二中间候选词对应集合A2,则A2属于A的子集。
在步骤S14中,根据第一候选词集合和第二候选词集合,确定目标新词。
其中,第一候选词集合中包括一个或多个第一中间候选词,第二候选词集合中包括一个或多个第二中间候选词,目标新词即为发现的新词。
在一些可选的实现方式中,步骤S14包括:确定第一候选词集合与第二候选词集合的交集或者并集,交集或者并集中包括一个或多个候选新词;根据交集或者并集中的候选新词,确定目标新词。
例如,若第一候选词集合为A1,第二候选词集合为A2,目标新词组成集合A3,则A3=A1∩A2(即交集),或者A3=A1∪A2(即并集)。
需要说明的是,在A3=A1∩A2的情况下,相当于对第一中间候选词和第二中间候选词进行了进一步地筛选,因此,新词的准确性得以进一步提升。在A3=A1∪A2的情况下,由于将通过特征属性确定出来的第一中间候选词和通过语义相似度确定出来的第二中间候选词均作为目标新词,因此,目标新词涵盖了基于多种信息确定的所有中间候选词,从而降低了遗漏新词的可能性。
还需要说明的是,在一些可选的实现方式中,根据第一候选词集合和第二候选词集合,确定目标新词,包括:分别对第一候选词集合中的各个第一中间候选词和第二候选词集合中的各个第二中间候选词进行词性过滤,并对过滤获得的第一中间候选词和第二中间候选词进行去重处理,获得目标新词。通过词性过滤,可以剔除无法成词的字符串,从而提高新词的质量。
示例性地,确定交集或并集中的候选新词的词性;根据预设词性和候选新词的词性,对候选新词进行词性过滤,获得词性过滤结果;根据词性过滤结果,从候选新词中筛选出目标新词。
在一些可选的实现方式中,新词发现方法还包括:对待处理文本进行主题挖掘,确定待处理文本的主题,其中,主题的数量为一个或多个;分别计算各个主题与各个初始候选词之间的第一词对关系,根据第一词对关系,从多个初始候选词中筛选出一个或多个第三中间候选词,获得第三候选词集合;根据第一候选词集合、第二候选词集合和第三候选词集合,确定目标新词。其中,主题为反映待处理文本语义层面的词汇,可以通过主题建模等方式确定待处理文本的主题,词对关系用于表征词之间的关联性,可以通过TransE(Translating embeddings for modeling multi-relational data,多元关系数据嵌入)、TransH(Knowledge graph embedding by translating on hyperplanes,将知识嵌入到超平面)、TransR(Learning Entity and Relation Embeddings for Knowledge GraphCompletion,实体和关系分开嵌入)等模型获取词对关系。由于主题和初始候选词之间的第一词对关系,可以在一定程度上反映初始候选词的合理性和准确性,因此,通过当前实现方式,可以进一步提高目标新词的准确性。需要说明的是,根据第一候选词集合、第二候选词集合和第三候选词集合确定目标新词的方式,与步骤S14的内容基本类似,在此不再展开描述。
在一些可选的实现方式中,新词发现方法还包括:对待处理文本进行主题挖掘,确定待处理文本的主题,其中,主题的数量为一个或多个;分别计算各个主题与各个目标新词之间的第二词对关系,根据第二词对关系,从多个目标新词中进一步筛选出一个或多个作为最终的新词。通过这种方式,从主题与目标新词的关联性层面对目标新词进行了进一步地筛选,从而可以进一步提高新词发现结果的准确性。
根据本申请的实施例,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候选词的特征属性信息,从初始候选词中筛选出一个或多个第一中间候选词,构成第一候选词集合,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;最后,通过第一候选词集合和第二候选词集合共同确定目标新词,而且,由于第一候选词集合中的第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二候选词集合中的第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一候选词集合和第二候选词集合共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性
图2为本申请实施例提供的一种新词发现方法的流程图。参照图2,该新词发现方法包括:
步骤S21,获取语料数据,确定待处理文本。
其中,语料数据可以包括多个文档,各个文档中包括一个或多个语句,基于语料数据将本次处理过程所需要处理的数据作为待处理文本。
步骤S22,基于Ngram模型对待处理文本进行分词处理,获得多个初始候选词。
其中,针对待处理文本中进行分词处理之后,其中的各个语句可能对应一个或多个初始候选词。由于分词处理存在误差,可能将某些不属于词的字符划分为一个词,因此,需要通过后续处理,将这些词排除出去,只保留真正可以成词的新词。
步骤S23,确定各个初始候选词的词频值、信息熵值和点间互值。
示例性地,统计各个初始候选词的出现次数,将其作为词频值。
示例性地,根据左邻熵和右邻熵确定初始候选词的信息熵值。例如,对于某初始候选词(相当于一个汉字组合字符串(string))而言,若在语料数据中,出现在它左边相邻的字有m种,出现在它右边相邻的字有n种,分别根据m和n可以计算该初始候选词的左邻熵和右邻熵,根据左邻熵和右邻熵之和以及左邻熵和右邻熵之差的绝对值确定信息熵值。通常情况下,在左邻熵和右邻熵均较大,且两者相差较小时,对应的初始候选词的信息熵值相对较大。
示例性地,点间互信息可以通过初始候选词中各个字符的联合概率分布函数以及各个字符的边缘概率分布函数进行计算获得。
需要说明的是,在文本数据中,很多字符一起出现的频次很高,但这并不意味着他们的组合可以作为一个词。在这种情况下,点间互信息可以用来评估哪些字符串的组合是真正有意义的词,而哪些是不属于词。例如,“深度学习技术”中“度”和“学”的共现频率比较高,因此,“度学”的互信息熵取值较高,从而容易被视作一个新词进行输出,但是“度学”并非一个真正的词汇,而通过点互间信息即可排除这种情况,从而提高新词的准确性。换言之,点间互信息用于表征初始候选词中各个字符在一起的意义,点间互信息越大,则说明字符之间的依赖性越强,相应的成词可能性就越高。
步骤S24,根据各个初始候选词的词频值、信息熵值、点间互值以及预设阈值,从所述初始候选词中筛选出一个或多个第一中间候选词。
步骤S25,对待处理文本和初始候选词进行向量化表示,获得语句向量和与该语句向量对应的候选词向量。
步骤S26,根据语句向量和对应的候选词向量,确定相应的语义相似度,并根据语义相似度从初始候选词中筛选出一个或多个第二中间候选词。
在一些可选的实现方式中,可以首先使用sent2vec模型将待处理文本进行向量化表示,获得与各个语句对应的多个语句向量,并将各个语句对应的初始候选词作为一个候选词集合,对该候选词集合也进行向量化表示,获得多个候选词向量(一个候选词集合表征为一个候选词向量,即一个候选词向量可能是由多个初始候选词转换而成的);然后,针对具有对应的关系的语句向量和候选词向量,计算两者之间的距离、相似系数等,并根据计算结果确定对应的语句与初始候选词之间的语义相似度,最后根据语义相似度和预设筛选条件,确定第二中间候选词。
示例性地,语义相似度包括相似值,预设筛选条件包括预设相似阈值或者预设数量。相应的,根据所述语义相似度和预设筛选条件,确定所述第二中间候选词,包括:将所述相似值大于所述预设相似阈值的初始候选词作为第二中间候选词;或者,根据相似值,选取预设数量的初始候选词作为第二中间候选词。例如,例如,预设数量为K,K为大于或等于1的整数,根据相似值大小对初始候选词进行排序,,取值较大的前K个初始候选词作为第二中间候选词。
需要说明的是,由于文本语句的长度有限,每个语句所对应的初始候选词数量通常较少,因此,在进行语义相似度计算时计算量相应较小。
但是,考虑到可能存在长语句的情况,因此,在一些可选的实现方式中,在针对各个语句向量及其对应的候选词向量进行语义相似度计算时,除了可以根据语句对应的所有初始候选词确定对应的候选词向量,也可以根据预设的抽取数量L,从语句对应的所有初始候选词中抽取对应的初始候选词,并根据抽取出来的初始候选词确定对应的候选词向量。例如,当某一语句对应的初始候选词的数量大于L时,则抽取L个初始候选词,并根据抽取出来的L个初始候选词确定对应的候选词向量;当语句对应的初始候选词的数量小于或等于L时,则抽取所有的初始候选词,并根据所有的初始候选词确定对应的候选词向量。通过这种方式,可以减少计算量,还可以避免抽取过多初始候选词,从而导致语义相似度计算不准确,从而影响新词发现结果的问题。
步骤S27,对各个第一中间候选词和各个第二中间候选词进行词性过滤,从中筛选出一个或多个目标新词。
其中,第一中间候选词是基于属性特征信息进行统计挖掘确定的,第二中间候选词是基于语义挖掘确定的,将基于两种方式挖掘的中间候选词进行合并,然后再判断各个中间候选词的词性,只保留可以成词的中间候选词,而剔除无法成词的中间候选词,从而可以较大程度地提高新词的质量。
步骤S28,基于目标新词生成词典,或者更新已经生成的词典。
示例性地,可以根据目标新词生成新的词典,也可以利用目标新词更新已有的词典。而且,对于新的待处理文本,可以直接从词典中查找与其匹配的词汇,从而无需针对所有待处理文本执行上述新词发现的处理过程,有效的提升了效率。
下面结合表1对本申请实施例的新词发现方法进行展开说明。如表1所示,其示出了关于医美领域的新词发现方法。
表1关于医美领域的新词发现方法示意图
参照表1,第一列数据为待处理文本,其包括多个语句,例如,语句“脸上有雀斑和红血丝是做超光子好还是超皮秒好呢”;通过分词处理,获得多个初始候选词;确定各个初始候选词的词频值、信息熵值和点间互值,并与对应的预设阈值进行比较,从而确定出第一中间候选词,包括:雀斑、超皮秒、黑眼圈、限首、觉太贵、瘦脸针;另外,将语句表示成对应的语句向量,将与各个语句对应的初始候选词视作一个集合表示为对应的候选词向量,根据语句向量和候选词向量确定语义相似度,并根据语义相似度从初始候选词中筛选出第二中间候选词,包括:红血丝、超皮秒、黑眼圈、激光、限首、光子嫩肤、瘦脸;进一步地,对第一中间候选词和第二中间候选词进行词性过滤,从而将第一中间候选词“限首”和“觉太贵”剔除,将第二中间候选词“限首”和“瘦脸”剔除,将经过剔除后的第一中间候选词和第二中间候选词进行去重处理,从而获得目标新词,包括:雀斑、红血丝、超皮秒、黑眼圈、激光、光子嫩肤、瘦脸针。
图3为本申请实施例提供的一种新词发现方法的工作过程示意图。参照图3,该新词发现方法的工作过程包括:
首先,获取待处理文本。该待处理文本包括j个语句,j为大于或等于1的整数。
其次,对待处理文本进行分词处理,获得多个初始候选词。如图3所示,经过分词处理之后,语句1对应i1个初始候选词,分别为初始候选词a(1_1)、初始候选词a(1_1)、…、初始候选词a(i1_1);语句2对应i2个初始候选词,分别为初始候选词a(1_2)、初始候选词a(2_2)、…、初始候选词a(i2_2);……;语句j对应ij个初始候选词,分别为初始候选词a(1_j)、初始候选词a(2_j)、…、初始候选词a(ij_j)。其中,i1至ij均为大于或等于1的整数。
其次,针对各个初始候选词,确定对应的特征属性值。如图3所示,确定初始候选词a(1_1)对应特征属性值z(1_1),初始候选词a(2_1)对应特征属性值z(2_1),……,初始候选词a(ij_j)对应特征属性值z(ij_j)。
其中,特征属性值z(1_1)可以是加权属性值。例如,若初始候选词a(1_1)的词频值为z1(1_1),信息熵值为z2(1_1),点间互值为z3(1_1),且对应的权重值分别为w1、w1和w3,则确定z(1_1)=w1*z1(1_1)+w2*z2(1_1)+w3*z3(1_1)。
另外,特征属性值z(1_1)也可以是单个特征属性对应的属性值,在这种情况下,一个初始候选词可能对应多个特征属性值z(1_1)。例如,初始候选词的特征属性值包括词频值、信息熵值和点间互值(图中仅示例性地示出一种特征属性值的情况)。
进一步地,在确定各个初始候选词的特征属性之后,可以根据对应的预设阈值,从多个初始候选词中筛选出第一中间候选词b1、b2、…、bp,且第一中间候选词b1、b2、…、bp构成关于第一中间候选词的第一集合,其中,p表示第一中间候选词的序号,且p为大于或等于1的整数。本质上,b1、b2、…、bp为从a(1_1)至a(ij_j)中选取出来的p个初始候选词。
在确定初始候选词之后,除了基于特征属性筛选出第一中间候选词之外,还存在另外一条处理线程,即确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选第二中间候选词。
如图3所示,针对待处理文本中的各个语句,将其转换为对应的语句向量,包括语句向量1、语句向量2、……、语句向量j共j个向量。并且,针对各个语句所对应的初始候选词(一个语句可以对应一个或多个初始候选词,且该语句所对应的初始候选词为对该语句进行分词处理所获得的词),也进行相应的向量转换处理,从而获得与各个语句对应的候选词向量,包括候选词向量1、候选词向量2、……、候选词向量j。对于候选词向量1而言,其是将语句1对应的初始候选词a(1_1)至a(i1_1)共i1个初始候选词表征为一个向量获得的,其他候选词向量类似,在此不再展开描述。而且,由于语句与初始候选词之间具有对应关系,因此,将该语句转换得到的语句向量,与将该语句对应的初始候选词转换得到的候选词向量之间,也具有对应关系。例如,语句1与初始候选词a(1_1)至a(i1_1)具有对应关系,而且,语句向量1是对语句1进行转换获得的语句向量,候选词向量1是将语句1对应的初始候选词a(1_1)至a(i1_1)进行转换获得的候选词向量,因此,语句向量1与候选词向量1之间也具有对应关系。其他语句向量和候选词向量与之类似,在此不再展开描述。
进一步地,针对具有对应关系的候选词向量和语句向量,通过计算两者的余弦相似度、距离、相似系数等方式,获得相似值,该相似值用于表征具有对应关系的语句与初始候选词之间的语义相似程度。例如,根据候选词向量1和语句向量1计算两者的余弦相似度,将该余弦相似度作为相似值1,该相似值1表征了语句1与初始候选词a(1_1)-a(i1_1)之间的语义相似程度。相似值2至相似值j的计算方式与表征信息与相似值1类似,在此不再展开描述。
在获得上述j个相似值之后,从中选取取值排在前r个的相似值,并将这些相似值所对应的初始候选词作为第二中间候选词c1、c2、…、cq(例如,若相似值1排在前r个,则将初始候选词a(1_1)至a(i1_1)作为第二中间候选词)。第二中间候选词c1、c2、…、cq构成关于第二中间候选词的第二集合,其中,q表示第二中间候选词的序号,且q为大于或等于1的整数。本质上,c1、c2、…、cq为从a(1_1)至a(ij_j)中选取出来的q个初始候选词。其中,r为大于或等于1的整数。
需要说明的是,第一中间候选词和第二中间候选词是基于不同信息确定的中间候选词,第一集合与第二集合之间可能存在相同元素,也可能两者的交集为空,还有可能两者完全相同,本申请实施例对此不作限定。
在获得第一集合与第二集合之后,分别确定两个集合中各个中间候选词的词性,过滤掉不属于预设词性的中间候选词,筛选出符合预设词性的中间候选词,并对这些中间候选词进行去重处理,从而获得目标新词d1、d2、…、dt,这些目标新词组成第三集合。其中,t表示目标新词的序号,且t≤(p+q)。
需要说明的是,在获得第一集合与第二集合之后,还可以先确定两个集合的交集,针对交集中的中间候选词执行词性过滤处理,并根据过滤结果获得目标新词。
综上所述,在本申请实施例中,针对待处理文本,分别通过初始候选词的属性特征、以及初始候选词与待处理文本的语义相似度两个层面,确定出第一中间候选词和第二中间候选词,从而获得第一候选词集合和第二候选词集合,可以减少遗漏新词的情况,并且通过对第一候选词集合和第二候选词集合中的中间候选词进行词性过滤,筛选出可以成词的中间候选词作为目标新词,过滤掉无法成词的中间候选词,进一步提高了新词的准确性,提升了新词的质量。
可以理解,本申请提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本申请不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
第二方面,本申请实施例提供一种新词发现装置。
图4为本申请实施例提供的一种新词发现装置的框图。
参照图4,本申请实施例提供了一种新词发现装置,该新词发现装置400包括:
分词模块401,用于对待处理文本进行分词处理,获得多个初始候选词。
第一筛选模块402,用于确定各个初始候选词的特征属性信息,并根据特征属性信息从多个初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合,特征属性信息是用于表征初始候选词的特征的信息。
第二筛选模块403,用于确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合。
确定模块404,用于根据第一候选词集合和第二候选词集合,确定目标新词。
根据本申请的实施例,首先,通过分词模块对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面利用第一筛选模块,通过初始候选词的特征属性信息,从初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合,另一方面利用第二筛选模块,通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;最后,由确定模块通过第一候选词集合和第二候选词集合共同确定目标新词,而且,由于第一候选词集合中的第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二候选词集合中的第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一候选词集合和第二候选词集合共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性。
在一些可选的实现方式中,特征属性信息包括词频属性信息、熵属性信息和点间互属性信息中的至少一种;其中,词频属性信息是根据初始候选词的出现次数确定的信息,熵属性信息是根据初始候选词的信息熵确定的信息,点间互属性信息是根据初始候选词中多个字符串之间的点间互信息确定的信息。
在一些可选的实现方式中,词频属性信息包括词频值,熵属性信息包括信息熵值,点间互属性信息包括点间互值;第一筛选模块包括加权单元和第一筛选单元,其中,加权单元,用于根据各个初始候选词的词频值、信息熵值和点间互值,确定各个初始候选词的加权属性值,第一筛选单元,用于根据初始候选词的加权属性值从多个初始候选词中筛选出大于预设加权阈值的初始候选词作为第一中间候选词。
在一些可选的实现方式中,第一筛选模块包括第一比较单元、第二比较单元、第三比较单元和第二筛选单元,其中,第一比较单元,用于比较各个初始候选词的词频值和预设词频阈值,得到各个初始候选词的词频比较结果,第二比较单元,用于比较各个初始候选词的信息熵值和预设信息熵阈值,得到各个初始候选词的熵比较结果,第三比较单元,比较各个初始候选词的点间互值和预设点间互阈值,得到各个初始候选词的点间互比较结果,第二筛选单元,用于根据各个初始候选词的词频比较结果、熵比较结果和点间互比较结果,从多个初始候选词中筛选出一个或多个第一中间候选词。
在一些可选的实现方式中,待处理文本包括多个语句。相应的,第二筛选模块包括第一转换单元、第二转换单元、相似度确定单元和第三筛选单元,其中,第一转换单元,用于将各个语句转换为对应的语句向量;第二转换单元,用于将与各个语句对应的初始候选词,转换为与各个语句对应的候选词向量;相似度确定单元,用于根据具有对应关系的语句向量和候选词向量,确定语句和语句对应的初始候选词之间的语义相似度;第三筛选单元,用于根据语义相似度和预设筛选条件,确定第二中间候选词,预设筛选条件为用于从初始候选词中筛选出与语句之间的语义相似度符合预设要求的第二中间候选词。
在一些可选的实现方式中,语义相似度包括相似值,预设筛选条件包括预设相似阈值或者预设数量。相应的,第三筛选单元,用于将相似值大于预设相似阈值的初始候选词作为第二中间候选词;或者,根据相似值,选取预设数量的初始候选词作为第二中间候选词。
在一些可选的实现方式中,确定模块包括第一确定单元和第二确定单元,其中,第一确定单元,用于确定第一候选词集合与第二候选词集合的交集或者并集,交集或者并集中包括一个或多个候选新词;第二确定单元,用于根据交集或者并集中的候选新词,确定目标新词。
在一些可选的实现方式中,第二确定单元包括词性确定子单元、词性过滤子单元和筛选子单元,其中,词性确定子单元,用于确定交集或并集中的候选新词的词性;词性过滤子单元,用于根据预设词性和候选新词的词性,对候选新词进行词性过滤,获得词性过滤结果;筛选子单元,用于根据词性过滤结果,从候选新词中筛选出目标新词。
在一些可选的实现方式中,新词发现装置还包括词典生成模块和/或词典更新模块。其中,词典生成模块,用于根据目标新词,生成词典,词典更新模块,用于根据目标新词,更新已经生成的词典。
此外,本申请还提供了电子设备、计算机可读存储介质,上述均可用来实现本申请提供的任一种新词发现方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图5为本申请实施例提供的一种电子设备的框图。
参照图5,本申请实施例提供了一种电子设备,该电子设备500包括:至少一个处理器501;至少一个存储器502,以及一个或多个I/O接口503,连接在处理器501与存储器502之间;其中,存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器501执行,以使至少一个处理器501能够执行上述的新词发现方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的新词发现方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述新词发现方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种新词发现方法,其特征在于,包括:
对待处理文本进行分词处理,获得多个初始候选词;
确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;
确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;
根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
2.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括词频属性信息、熵属性信息和点间互属性信息中的至少一种;
其中,所述词频属性信息是根据所述初始候选词的出现次数确定的信息,所述熵属性信息是根据所述初始候选词的信息熵确定的信息,所述点间互属性信息是根据所述初始候选词中多个字符串之间的点间互信息确定的信息。
3.根据权利要求2所述的方法,其特征在于,所述词频属性信息包括词频值,所述熵属性信息包括信息熵值,所述点间互属性信息包括点间互值;
所述根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,包括:
根据各个所述初始候选词的词频值、信息熵值和点间互值,确定各个所述初始候选词的加权属性值,并根据所述初始候选词的加权属性值从多个所述初始候选词中筛选出大于预设加权阈值的初始候选词作为所述第一中间候选词;
或者,
比较各个所述初始候选词的词频值和预设词频阈值,得到各个所述初始候选词的词频比较结果,比较各个所述初始候选词的信息熵值和预设信息熵阈值,得到各个所述初始候选词的熵比较结果,比较各个所述初始候选词的点间互值和预设点间互阈值,得到各个所述初始候选词的点间互比较结果,并根据各个所述初始候选词的词频比较结果、熵比较结果和点间互比较结果,从多个所述初始候选词中筛选出所述第一中间候选词。
4.根据权利要求1所述的方法,其特征在于,所述待处理文本包括多个语句;
所述确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,包括:
将各个语句转换为对应的语句向量;
将与各个语句对应的所述初始候选词,转换为与各个语句对应的候选词向量;
根据具有对应关系的所述语句向量和所述候选词向量,确定所述语句和所述语句对应的初始候选词之间的语义相似度;
根据所述语义相似度和预设筛选条件,确定所述第二中间候选词,所述预设筛选条件为用于从所述初始候选词中筛选出与所述语句之间的语义相似度符合预设要求的第二中间候选词。
5.根据权利要求4所述的方法,其特征在于,所述语义相似度包括相似值,所述预设筛选条件包括预设相似阈值或者预设数量;
所述根据所述语义相似度和预设筛选条件,确定所述第二中间候选词,包括:
将所述相似值大于所述预设相似阈值的初始候选词作为所述第二中间候选词;
或者,
根据所述相似值,选取预设数量的所述初始候选词作为所述第二中间候选词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一候选词集合和所述第二候选词集合,确定目标新词,包括:
确定所述第一候选词集合与所述第二候选词集合的交集或者并集,所述交集或者并集中包括一个或多个候选新词;
根据所述交集或者并集中的候选新词,确定所述目标新词。
7.根据权利要求6所述的方法,其特征在于,所述根据所述交集或者并集中的候选新词,确定所述目标新词,包括:
确定所述交集或并集中的候选新词的词性;
根据预设词性和所述候选新词的词性,对所述候选新词进行词性过滤,获得词性过滤结果;
根据所述词性过滤结果,从所述候选新词中筛选出所述目标新词。
8.一种新词发现装置,其特征在于,包括:
分词模块,用于对待处理文本进行分词处理,获得多个初始候选词;
第一筛选模块,用于确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;
第二筛选模块,用于确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;
确定模块,用于根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的新词发现方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的新词发现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316094.4A CN116151266A (zh) | 2022-10-26 | 2022-10-26 | 新词发现方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316094.4A CN116151266A (zh) | 2022-10-26 | 2022-10-26 | 新词发现方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151266A true CN116151266A (zh) | 2023-05-23 |
Family
ID=86357110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211316094.4A Pending CN116151266A (zh) | 2022-10-26 | 2022-10-26 | 新词发现方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151266A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562281A (zh) * | 2023-07-07 | 2023-08-08 | 中国农业科学院农业信息研究所 | 一种基于词性标记的领域新词提取方法、系统及设备 |
CN116956897A (zh) * | 2023-09-20 | 2023-10-27 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
-
2022
- 2022-10-26 CN CN202211316094.4A patent/CN116151266A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562281A (zh) * | 2023-07-07 | 2023-08-08 | 中国农业科学院农业信息研究所 | 一种基于词性标记的领域新词提取方法、系统及设备 |
CN116956897A (zh) * | 2023-09-20 | 2023-10-27 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
CN116956897B (zh) * | 2023-09-20 | 2023-12-15 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455542B2 (en) | Text processing method and device based on ambiguous entity words | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN111274394B (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
EP4141733A1 (en) | Model training method and apparatus, electronic device, and storage medium | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
CN116151266A (zh) | 新词发现方法及装置、电子设备、存储介质 | |
JP7413630B2 (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN111931491A (zh) | 领域词典构建方法及装置 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
CN113407677A (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN117236340A (zh) | 问答方法、装置、设备和介质 | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
CN115329850A (zh) | 信息比对方法、装置、电子设备及存储介质 | |
CN112966501A (zh) | 一种新词发现方法、系统、终端及介质 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
CN113220841B (zh) | 确定鉴别信息的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |