CN112434512A - 一种结合上下文语境的新词确定方法及装置 - Google Patents
一种结合上下文语境的新词确定方法及装置 Download PDFInfo
- Publication number
- CN112434512A CN112434512A CN202010977542.XA CN202010977542A CN112434512A CN 112434512 A CN112434512 A CN 112434512A CN 202010977542 A CN202010977542 A CN 202010977542A CN 112434512 A CN112434512 A CN 112434512A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- context
- original
- neurons
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 210000002569 neuron Anatomy 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 230000008030 elimination Effects 0.000 description 8
- 238000003379 elimination reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000007115 recruitment Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007711 solidification Methods 0.000 description 2
- 230000008023 solidification Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合上下文语境的新词确定方法,其基于候选词在多个不同语境下BERT模型的输出结果来确定成词概率,至少包括如下步骤:a:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示;b:基于深度神经网络将多个上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元;c:在多个神经元中取M个神经元的平均值作为成词神经元,并当成词神经元的y1大于第一阈值时,确定与成词神经元相对应地原始候选词为词语,其中,M≥3。本发明采用特定BERT模型中将上下文候选词作为输入这一重要技术手段,可大量确定当前社会中出现的新词,拓展输入法词库,本发明结构简单、使用方便、实用性强、具有极高的商业价值。
Description
技术领域
本发明属于计算机技术应用领域,具体地,涉及一种结合上下文语境的新词确定方法及装置。
背景技术
随着社会的不断进步,互联网在人们日常生活中的普及,人与人 之间的沟通也不仅仅局限于面对面,而更多的是通过网络来实现有效 的沟通,在这样的一个多元化快节奏发展的现代化社会中,每时每刻 都在发生着大大小小的事情,而新词的产生是现代化发展所衍生的产 物,其将人们带入到更为有效、有趣的沟通中,而这些新词所描绘的 意义、场景往往会随着沟通中的人们的广泛应用而逐渐被广为接受。
然而,作为一些第三方平台或系统,往往需要更加贴合于用户的使用习惯以及兴趣爱好,这样才能更好的为用户提供优质服务,而随着互联网的飞速发展,现在的新词更是层出不穷,甚至对于第三方平台或系统,往往会因为无法识别一些新词而给用户带来一些困扰及影响,而如何更好的与现代社会的新词出现接轨成为了目前一些商家亟待解决的技术问题,如何大量、精准的获取到近期出现的新词更是目前最为重要的技术问题。
新词的发现一般是从自由度和凝固度角度考虑,前者具有比较丰富的上下文,后者还需要本身内部满足一定条件,词内部要比较稳固或者内部凝固程度较高,在现有技术中,由于无法比较系统完善的在新词发现时去有效的结合当前语境中新词的上下文关系,即在深度神经网络中并未融入上下文信息,而使得在对新词进行判断时,只能用 0.5的固定阈值来判断,其准确率较低,仅为30%左右,且在进行新词发现时,仅采用了训练集中的正例词语样本,从而在新词发现的准确性上也存在一定的误差。
目前,并没有一种能够解决上述技术问题的技术方案,具体地,并没有一种结合上下文语境的新词确定方法及装置。
发明内容
针对现有技术存在的技术缺陷,本发明的目的是提供一种新词的确定方法及装置,根据本发明的一个方面,提供了一种结合上下文语境的新词确定方法,其基于候选词在多个不同语境下BERT模型的输出结果来确定成词概率,至少包括如下步骤:
a:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示,其中,所述上下文候选词至少包括原始候选词以及与所述原始候选词相对应地多个上下文信息;
b:基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元,其中,所述y1、y2的取值范围为0~1, y1与y2之和为1,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小;
c:在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。
优选地,在所述步骤a中,所述特定BERT模型的建立通过如下方式:将正例与反例按照特定比例输入到所述特定BERT模型,其中,所述正例至少包括字串以及与所述字串相对应的上下文编码,并按照格式为依次为Token Embeddings、Segment Embeddings以及Position Embeddings的形式作为输入,其中,所述Token Embeddings表示为每个字符位的具体值,所述Segment Embeddings表示为与所述字符位的具体值相对应的类别,所述类别至少包括赋值为A的词语以及赋值为B 的上下文,所述Position Embeddings表示为与所述字符位的具体值相对应的位置编号。
优选地,所述正例为词语以及与所述词语相对应的上下文,所述反例为非词语以及与所述反例相对应的正例的上下文。
优选地,所述特定比例为如下比例中的任一种:
1:15;
1:28;或者
1:35。
优选地,在所述步骤a中,所述上下文候选词向量化表示为768维的向量。
优选地,在所述步骤b中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的数据量对深度神经网络模型进行训练,并通过反向传播算法调节模型参数使得所述深度神经网络模型具备词语判别的能力,
其中,所述正例特征向量与标记为{1,0}的神经元相对应,所述负例特征向量与标记为{0,1}的神经元相对应。
优选地,所述反向传播算法调节模型参数通过如下方式确定:
优选地,在所述步骤b中,将多个所述上下文候选词向量化表示进行输出通过如下方式:
L=-[yloga+(1-y)log(1-a)],其中,
y是预测的输出值,a是期望的输出,L是指交叉熵损失函数值loss。
优选地,在所述步骤b中,将线性变换后的多个所述上下文候选词向量化表示输入一Softmax层,并输出成标记为{y1,y2}的多个神经元。
优选地,在所述步骤b中,所述Softmax层采用的公式为:
其中j为1到k的自然数,e为自然常数,k为输入/输出向量的维度。
优选地,在所述步骤c中,按照如下规则确定所选取的M个神经元:
-选取y1从高至低排列的前M个神经元;
-选取y1从低至高排列的前M个神经元;或者
-随机选取多个神经元中的M个神经元。
优选地,在所述步骤c中,所述第一阈值的取值范围为:0.75~0.99。
优选地,在所述步骤a之前,还包括如下步骤:
i:基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本,其中,所述第二阈值的取值范围为60%~96%;
ii:基于N-Gram算法以及所述待鉴定文本生成多个原始候选词,其中,将文本内容确定为所述待鉴定文本的形式至少包括字节流和/或字符流和/或词流。
优选地,在所述步骤ii中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:
ii1:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N 的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数;
ii2:将长度为N所形成的所有字符串确定为原始候选词。
优选地,在所述步骤ii之后,还包括:对多个所述原始候选词进行篇频过滤。
优选地,在所述步骤c之后,还包括步骤:
d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。
优选地,所述数据库为标准词库。
优选地,所述上下文候选词向量化表示为所述BERT模型的第12层的输出结果。
根据本发明的另一个方面,提供了一种结合上下文语境的新词确定装置,其采用所述的确定方法,至少包括:
第一输出装置:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示;
第二输出装置:基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元;
第一确定装置:在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。
优选地,还包括:
第二确定装置:基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本;
第一生成装置:基于N-Gram算法以及所述待鉴定文本生成多个原始候选词。
优选地,所述第一生成装置包括:
第一处理装置:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串;
第三确定装置:将长度为N所形成的所有字符串确定为原始候选词。
优选地,还包括:
第二处理装置:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配。
本发明公开了一种结合上下文语境的新词确定方法,其基于候选词在多个不同语境下BERT模型的输出结果来确定成词概率,至少包括如下步骤:a:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示,其中,所述上下文候选词至少包括原始候选词以及与所述原始候选词相对应地多个上下文信息;b:基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元,其中,所述y1、y2的取值范围为0~1,y1与y2之和为1,当 y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小;c:在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。本发明结合N-Gram算法、BERT模型对文本中的词语进行确定以及向量化,并针对性的采用创新式的深度神经网络输出基于判断标准的神经元,最后将确定为词语的候选词与数据库中所有的词语进行匹配,若没有这样的词语,则所述候选词即为新词,本发明创新性地输入的是一个词语及上下文的组合语料,那么BERT模型输出的自然也是一个组合,输入的语料涵盖了不同的上下文,所以同一个词语会输出许多不同的结果,取其中最高的5个结果求平均值,作为成词概率。本发明全程经过计算机大数据智能运算,基于搜索目标、范围可大量确定当前社会中出现的新词,拓展输入法词库,本发明结构简单、使用方便、实用性强、具有极高的商业价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了本发明的具体实施方式的,一种结合上下文语境的新词确定方法的具体流程示意图;
图2示出了本发明的第一实施例的,一种结合上下文语境的新词确定方法的具体流程示意图;
图3示出了本发明的第二实施例的,一种基于N-Gram算法以及待鉴定文本生成多个原始候选词的具体流程示意图;
图4示出了本发明的另一具体实施方式的,一种结合上下文语境的新词确定装置的模块连接示意图;以及
图5示出了本发明的第三实施例的,所述特定BERT模型的编码格式示意图。
具体实施方式
为了更好的使本发明的技术方案清晰地表示出来,下面结合附图对本发明作进一步说明。
图1示出了本发明的具体实施方式的,一种结合上下文语境的新词确定方法的具体流程示意图,本领域技术人员理解,本发明在现有技术的基础上做出多个维度的创新,尤其是其基于候选词在多个不同语境下BERT模型的输出结果来确定成词概率,所述结合上下文语境的新词确定方法至少包括如下步骤:
首先,进入步骤S101,在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示,其中,所述上下文候选词至少包括原始候选词以及与所述原始候选词相对应地多个上下文信息,在这样的实施例中,所述特定BERT模型将在后述的实施例中作进一步地描述,所述上下文候选词至少包括原始候选词以及与所述原始候选词相对应地多个上下文信息,所述原始候选词将通过TF-IDF模型、N-Gram 算法、频篇过滤处理等方式完成确立,这些将在后述实施例中进行描述,相应地,与所述原始候选词相对应地存在有多个上下文信息,例如,“上班”一词,可以在多个语境中具有不同的上下文信息,“他上班非常辛苦”、“我今天没上班”、“同学去上班主任的课”等等,在不同的语境中,“上班”可以表现为多种不同的含义、词性、理解,而在现有的技术中,往往仅仅是将“上班”一词作为输入,并输出代表上班的768 维的向量,而在本申请中,则通过将“上班”与多个与之相对应地上下文共同作为输入,并输出与所述原始候选词相对应地多个上下文信息。
本领域技术人员理解,基于特定BERT模型对原始候选词以及与所述原始候选词相对应地多个上下文信息进行训练,并确定多个上下文候选词向量化表示,BERT(Bidirectional Encoder Representations from Transformers)是效果非常好的通用预训练语言表示模型,目前得到预训练表示模型的方法主要有基于特征(Feature-based)的方法或者微调(Fine-tuning)的方法,词向量生成过程采用BERT模型,BERT模型输入:token embeddings,segmentation embeddings和position embeddings,在本发明中,主要应用到基于特征的方法,即把原始候选词以及与所述原始候选词相对应地多个上下文信息转换为词向量,分别正向和反向依次把词向量输入LSTM中,得到对应的输出,堆叠L层,线性组合两部分对应的特征输出,得到预训练表示模型。
优选地,在所述步骤S101中,所述特定BERT模型的建立通过如下方式:将正例与反例按照特定比例输入到所述特定BERT模型,本领域技术人员理解,参考图5,图5示出了本发明的第三实施例的,所述特定BERT模型的编码格式示意图,其中,所述正例至少包括字串以及与所述字串相对应的上下文编码,并按照格式为依次为Token Embeddings、 SegmentEmbeddings以及Position Embeddings的形式作为输入,其中,所述Token Embeddings表示为每个字符位的具体值,所述Segment Embeddings表示为与所述字符位的具体值相对应的类别,所述类别至少包括赋值为A的词语以及赋值为B的上下文,所述Position Embeddings表示为与所述字符位的具体值相对应的位置编号。
如图5所示,所述图5的编码格式即为本申请中原始候选词以及与所述原始候选词相对应地多个上下文信息的输入格式,在所述图5中,其输入为“随申码sep请打开你的随申码”,进而所述Token Embeddings 为E随、E申、E码、Esep、E请、E打、E开、E你、E的、E随、E申、E码,而所述Segment Embeddings为EA、EA、EA、EA、EB、EB、EB、EB、EB、EB、EB、EB,而所述Position Embeddings为E0、E1、E2、E3、E4、E5、E6、E7、E8、 E9、E10、E11。
进一步地,所述正例为词语以及与所述词语相对应的上下文,例如,结合上述实施例中,所述正例为“随申码sep请打开你的随申码”,所述反例为非词语以及与所述反例相对应的正例的上下文,例如,“的随 sep请打开你的随申码”、“申码sep请打开你的随申码”、“开你的随sep请打开你的随申码”。
进一步地,所述特定比例为1:28,在这样的实施例中,我们会输入一个正例与很多反例,也让BERT模型学习,正例与反例之比大概是1: 28,本申请中共输入了7万条正例,128万条反例,而作为特定比例,可以输入了3万条正例,84万条反例,而在其他的实施例中,所述特定比例还可以为1:15或者1:35,例如,输出15万条正例,225万条反例等等,这都不影响本发明的具体方案,而输入的正例以及反例的比例也可以根据实际情况进行调整,在此不予赘述。
进一步地,作为本发明的一个延伸实施例,本发明还可以通过大量的文本并基于字、字的语义信息、字的位置信息来确定BERT模型,在这样的实施例中,公开了一种用于建立BERT模型的实施方式,由于建立BERT模型是一种现有技术,但如何通过大量文本,并针对性的基于字、字的语义信息、字的位置信息来确定BERT模型是本发明所特有的、具有目标性的实施方案,相似的词语之间,生成向量的相似度则会相近。本领域技术人员理解,BERT模型采用的是Transformer,并且在处理一个单词的时候,还能够考虑到所述单词前面的词和后面的词,得到它在上下文中的含义。通过每日在互联网上获取的新文本,将获取文本的字、字所在的句以及位置信息作为输入传递给BERT模型,通过迭代直至收敛稳定,获得被训练后的BERT模型即为词语embedding的模型。BERT 模型会随机选择语料中15%的单词,然后其中的80%会用[Mask]掩码代替原始词,其中的10%会被随机换为另一个词,剩下10%保持原词不变,然后要求模型去正确预测被选中的词,从而达到对词语的语义级理解。
进一步地,所述上下文候选词向量化表示为768维的向量,在这样的实施例中,先使用N-Gram算法,再通过BERT模型生成上下文候选词向量化表示,所述上下文候选词向量化表示存在768个维度。
然后,进入步骤S102,基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元,其中,所述y1、y2的取值范围为0~1,y1与y2之和为1,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小,在这样的实施例中,在原来的现有技术中,基于深度神经网络将多个候选词向量化表示输出成标记为{y1,y2}的神经元,当y1为1,y2为0时,确定与所述候选词向量化表示相对应地原始候选词为词语,当 y1为0,y2为1时,确定与候选词向量化表示相对应地原始候选词不为词语,本发明区别于现有技术,其结合了上下文信息,将多个上下文候选词向量化表示输出成标记为{y1,y2}的神经元,在现有的技术中,只能用0.5的固定阈值来判断,其准确率较低,仅为30%左右,而在本申请中结合了不同语境的上下文信息,将大大提高准确率,其表现形式也不单单是0或1的形式,而是所述y1、y2的取值范围为0~1, y1与y2之和为1,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小,这都得益于输入的候选词以及与所述候选词相对应的上下文。
进一步地,所述上下文候选词向量化表示为所述BERT模型的第12 层的输出结果,此为目前现有技术,具体地,BERT模型可以实现“将字、词、句转化为特征向量,并进行神经网络处理”的功能,BERT模型相当于能给所有的字、词、句都打上一个富有含义的向量标签,为了覆盖所有词句,这个向量的维度很高,越高维度代表越准确,但是运算量也会急剧增加,所以一般情况下,我们用768维的模型。在获得特征向量后,需要对其进行神经网络处理,最终将多个上下文候选词的向量化表示输出为标记为{y1,y2}的神经元,其作为判定“是否为词”的重要依据。本发明针对现有技术中无法结合上下文语境将候选词作为输入的技术缺陷,公开了一种能够将词语连同上下文一起进行BERT模型训练的技术方案,进而使模型具备了识别上下文语境的能力,采用本申请所示出的技术方案,可以精确识别出各个词在不同上下文语境中的含义,同一个词语在不同语境中的特征向量是有差异的,而所述的特征向量差异,是经过大量语料训练得到的,BERT模型在训练过程中将逐渐记忆词与上下文之间的联系,而在现有技术中,是永远无法达到这样的技术效果的。
进一步地,基于深度神经网络将上下文候选词向量化表示进行标注,标注形式为One-Hot编码,在一个优选地实施例中,所述待鉴定文本为“好好学习”,本发明先使用N-Gram算法,确定其中一个原始候选词为“学习”,再通过特定BERT模型生成上下文候选词向量化表示,所述向量化候选词存在768个维度,基于深度神经网络将所述上下文候选词向量化表示输出成标记为{y1,y2}的神经元,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小。
进一步地,在所述步骤S102中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的数据量对深度神经网络模型进行训练,并通过反向传播算法调节模型参数使得所述深度神经网络模型具备词语判别的能力,其中,所述正例特征向量与标记为{1,0}的神经元相对应,所述负例特征向量与标记为{0,1}的神经元相对应。
本领域技术人员理解,所述确定深度神经网络模型的方式为现有技术,具体地,在现有技术中,训练的输入分为两部分,正例和负例,正例则是一个正常词语的特征向量,例如“电脑”的768维向量;负例为非一个正常词语的向量,例如“我吃饭”不是一个词语的768维特征向量,通过同样比例的正例和负例,即分别占用50%的数据量,然后对正例标记为[1,0],负例标记为[0,1],从而对模型进行训练,通过反向传播算法调节模型参数,最终使得模型具备词语判别的能力,本申请的深度神经网络的训练同样可以参考这样的形式,即标记为{y1,y2}的神经元,当y1趋近于1时的词语为正例,当y2趋近于1时的词语为反例。
进一步地,所述反向传播算法调节模型参数通过如下方式确定:
进一步地,本领域技术人员理解,鉴定词语的过程采用有监督的学习方式,通过分类问题解决,分类网络模型结构为全连接深度神经网络。本发明最终的目的是基于输入若干个字组成的“词”,判断其是否是一个真实的词语的概率。深度神经网络模型的输入为词语的 768维向量(即n=768个神经元);深度神经网络模型的输出为2个神经元,即标记为{y1,y2}的神经元,当y1趋近于1时,词语的概率越大,当y2趋近于1时,词语的概率越小,深度神经网络模型的损失函数为交叉熵损失函数,深度神经网络模型的优化方法为Adam。
进一步地,在所述步骤S102中,将所述上下文候选词向量化表示进行输出通过如下方式:
L=-[yloga+(1-y)log(1-a)],其中,
y是预测的输出值,a是期望的输出,L是指交叉熵损失函数值loss,我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为[0,1],分别表示负类和正类。模型的最后通常会经过一个Sigmoid函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大,Sigmoid函数的表达式和图形如下所示:g(s)=11+e- sg(s)=11+e-sg(s)=\frac{1}{1+e^{-s}},其中s是模型上一层的输出,Sigmoid函数有这样的特点:s=0时,g(s)=0.5;s>>0时, g≈1,s<<0时,g≈0。显然,g(s)将前一级的线性输出映射到[0,1]之间的数值概率上。这里的g(s)就是交叉熵公式中的模型预测输出。预测输出即Sigmoid函数的输出表征了当前样本标签为1的概率:y=P(y=1|x)y=P(y=1|x)\hat y=P(y=1|x),很明显,当前样本标签为0的概率就可以表达成:1-y=P(y=0|x)1- y=P(y=0|x)1-\hat y=P(y=0|x),如果从极大似然性的角度出发,把上面两种情况整合到一起,当真实样本标签y=0时,上面式子第一项就为1,概率等式转化为:P(y=0|x)=1-yP(y=0|x)=1- yP(y=0|x)=1-\hat y,当真实样本标签y=1时,上面式子第二项就为1,概率等式转化为:P(y=1|x)=yP(y=1|x)=yP(y=1|x)=\hat y,两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。我们希望的是概率P(y|x)越大越好。首先,我们对 P(y|x)引入log函数,因为log运算并不会影响函数本身的单调性。我们希望log P(y|x)越大越好,反过来,只要log P(y|x)的负值-log P(y|x)越小就行了。那我们就可以引入损失函数,且令 Loss=-log P(y|x)即可。则得到损失函数为:L=-[ylog a+(1-y)log (1-a)]。本领域技术人员理解,交叉熵损失能够很敏感的感知到分类效果的差异,并且能够实现精确的量化。
更进一步地,在所述步骤S102中,将线性变换后的多个所述上下文候选词向量化表示输入一Softmax层,并输出成标记为{y1,y2}的多个神经元,在所述步骤S102中,所述Softmax层采用的公式为:
其中j为1到k的自然数,e为自然常数,k为输入/输出向量的维度。
本领域技术人员理解,本申请通过特定BERT模型的输出,经由 Linear线性变换输入到Softmax层,在特定BERT模型的输出中,我们取的是第一个token的最后一个隐藏状态,即[CLS]的最后一个隐藏状态,它以一个[1*768]维的向量表示,可以代表整个词语以及上下文句子的含义,待拿到所述输出结果后,再做一个线性变换(即Linear),最后通过一个softmax层,将线性层的隐向量转化成0-1之间的表达式。通过上述步骤得到的0-1之间的表达式,可以代表目标字串(词语)在这个上下文中是否是一个真实词语的概率。通过大量正例/反例的训练,使得模型对正确词语的输出结果趋向于1,对错误词语的输出结果趋向于0,而此时的模型就基本达到可以实际应用的状态了。
最后,进入步骤S103,在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。进一步地,在所述步骤S103中,选取y1从高至低排列的前M个神经元的规则来确定所选取的M个神经元,在这样的实施例中,所述第一阈值的取值范围为:0.75~0.99。在实际应用环境中,由于我们输入的语料涵盖了不同的上下文,所以同一个词语会输出许多不同的结果,我们取其中最高的 M个结果求平均值,作为成词概率。优选地,所述M为5,所述第一阈值为0.95。
例如,经过步骤S101至步骤S102,我们需要判断“扫黑除恶”是词语的概率,在“最高人民法院工作报告对扫黑除恶专项斗争的这两个要害问题做了专利阐述”中,所述“扫黑除恶”为词语的概率为0.81,在“重点领域、扫黑除恶、营商环境、基层腐败、纠治四风等5个方面”中,所述“扫黑除恶”为词语的概率为0.73,在重点领域、扫黑除恶、营商环境、基层腐败、纠治四风等5个方面”中,所述“中共中央、国务院发布《关于开展扫黑除恶专项斗争的通知》”中,为词语的概率为 0.72,则所述M为3,所述概率为0.81、0.73、0.72的总和除以3,即0.75,然而,若所述“扫黑除恶”还存在很多的上下文信息,即包括但不限于0.81、0.73、0.72,还有0.66、0.51、0.44、0.21、0.98、0.95 等等,在这样的实施例中,则可以取M为5,且取其中最高的5个结果求平均值,作为成词概率,即0.98、0.95、0.81、0.73、0.72,相应地,将上述5个结果相加后除以5,即为成词概率0.838。
而在另一个实施例中,选取y1从低至高排列的前M个神经元,结合上述实施例,所述“扫黑除恶”还存在很多的上下文信息,即包括但不限于0.81、0.73、0.72,还有0.66、0.51、0.44、0.21、0.98、0.95 等等,即选取y1从低至高排列的前5个神经元,分别为0.21、0.44、0.51、 0.66、0.72,相应地,将上述5个结果相加后除以5,即为成词概率0.508。
而在另一个实施例中,随机选取多个神经元中的M个神经元,结合上述实施例,所述“扫黑除恶”还存在很多的上下文信息,即包括但不限于0.81、0.73、0.72,还有0.66、0.51、0.44、0.21、0.98、0.95 等等,即随机选取多个神经元中的M个神经元,在一个优选地实施例中,随机选取多个神经元中的6个神经元,分别为0.73、0.72、0.66、0.51、 0.44、0.98、0.95,相应地,将上述6个结果相加后除以6,即为成词概率0.831。
本领域技术人员理解,确定所述成词神经元的方式包括但不限于上述三种方式,例如,还可以去掉最高值、最低值,然后将所有数据相加后取平均值,这些都不影响本发明的具体实施方案,在此不予赘述。
图2示出了本发明的第一实施例的,一种结合上下文语境的新词确定方法的具体流程示意图,作为本发明的第一实施例,公开了一种用于结合上下文语境进行新词确定的完整流程,具体地,包括如下步骤:
首先,进入步骤S201,基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本,其中,所述第二阈值的取值范围为60%~96%,优选地,所述第二阈值的取值为95%,即在步骤S101之前,为了提高文本质量,去重相关原始语料,利用TF-IDF模型,所述TF-IDF模型一般用于新闻分类中,但也可用于其他领域,查看某篇中某词的占比和某词在整体词库中的占比,通过所述TF-IDF模型去除相似度较高的原始语料,通过比较两篇文章相似度,即向量余弦相似度,如果超过95%,即为同一篇文章,不做重复比较,提高文本质量。
然后,进入步骤S202:基于N-Gram算法以及所述待鉴定文本生成多个原始候选词,其中,将文本内容确定为所述待鉴定文本的形式至少包括字节流和/或字符流和/或词流。
进一步地,基于N-Gram算法以及待鉴定文本生成多个原始候选词, 本领域技术人员理解,N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram 的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。在本发明中,所述N-Gram算法是一种将文本内容进行有效分割,进而获取到多个所需数据的控制方法,此为目前较为常见的现有技术,而待鉴定文本则是用于被分割的文本内容,所述原始候选词则是需要被判断是否为词语的所需数据,本发明将在后续的具体实施方式中作进一步的描述,在此不予赘述。
进一步地,在所述步骤S202中,通过字节流的方式将文本内容确定为所述待鉴定文本,所述字节流是指在传输过程中,传输数据的最基本单位是字节的流,字节流是由字节组成的,大多数情况下,字节是数据最小的基本单位,相应地,还可以通过字符流的方式将文本内容确定为所述待鉴定文本,字符流处理的为2个字节的Unicode字符,分别操作字符、字符数组或字符串,而字节流处理单元为个字节,操作字节和字节数组。所以字符流是由Java虚拟机将字节转化为个字节的Unicode 字符为单位的字符而成的,字节流可用于任何类型的对象,包括二进制对象,而字符流只能处理字符或者字符串;字节流提供了处理任何类型的IO操作的功能,但它不能直接处理Unicode字符,而字符流就可以。
而在另一个极为特殊的实施例中,还可以通过词流的方式将文本内容确定为所述待鉴定文本,在这样的实施例中,词流由若干个词组成的词流,以发现通过词语组成的长新词。例如:“北京”是一个词,“大学”是一个词,那组合在一起可能也是一个新词。词流的形式例如:北京大学招生通知,倘若“北京大学”是未被发现过的新词,则通过词流可以发现由词语组合而产生的新词。基于N-Gram的思想则是针对这些词进行判定:北京大学、大学招生、招生通知、北京大学招生、大学招生通知、北京大学招生通知。
进一步地,在所述步骤S202之后,还包括步骤:对多个所述原始候选词进行篇频过滤,所述篇频过滤即为在确定多个原始候选词之后,采用篇频过滤判断同一个词在多少篇文章中出现,如果在不同的文章中词出现次数非常多,即为有价值的词,这样可以排除低价值词语,选出高质量候选词,例如,某一词语在5篇文章出现过,将被认定为高质量候选词,本领域技术人员理解,篇频是指词语出现在不同的多篇文章中,即如果同一词语在同一篇文章中出现很多次,篇频不会增加,只有当同一词语出现在不同的文章中,篇频才会增加。篇频过滤的意义在于:如果一个词语是有价值的新词,那么该词的应用场景必然是较为广泛的,可以在多种不同的话题、文章、语境中被使用,所以该词的篇频必然是高的。而如果一个词的篇频很低,意味着它只是在某一篇固定的文章中有使用价值,甚至是因为作者的笔误,打错了的词,所以不该被认定为有价值的新词。
进一步地,基于N-GRAM分词得到的原始候选词的数量是非常巨大的,如果直接将其导入至特定的BERT模型,会带来很高的计算负担。于是,为了克服上述在实际场景应用中出现的技术难题,我们采用篇频过滤,可以直接淘汰80%的低价值候选词,从而提高整个系统的效率。
进一步地,高频率出现的词语也将更为高质量的被应用于后续的结合上下文语境中,因为这样的词语将出现在多个上下文语境中,而正因为如此,这样的候选词在进行词语判断时的准确性将远远大于那些低频率出现的候选词,这样也大大提高的本申请结合上下文语境的新词判断的准确性。
紧接着,将执行步骤S203至步骤S205,所述步骤S203至所述步骤 S205将参考前述图1中示出的步骤S101至步骤S103,在此不予赘述。
最后,在执行完所述步骤S205之后,还包括步骤S206:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词,所述数据库为标准词库。
本领域技术人员理解,将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词,本领域技术人员理解,所述数据库为标准词库,结合步骤S201至步骤S205,首先,系统将准备标准词库,并检索大量文章,基于步骤S201,基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本生成原始候选词,然后,执行步骤S202,本步骤将结合N-Gram生成多个原始候选词,然后判断候选词是词语的概率,此时使用“深度神经网络”判断,例如:“好学”这个原始候选词,紧接着结合步骤S203,使用特定的Bert模型生成上下文候选词向量化表示,其具有768个维度,再然后通过步骤S204采用深度神经网络判断,基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1, y2}的多个神经元,其中,所述y1、y2的取值范围为0~1,y1与y2之和为1,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小,紧接着,在步骤S205中会,在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。最后,在步骤S206中,在标准词库中搜索所述词语,若存在与标准词库中,则不做处理,若不存在于标准词库中,则将其标记为新词,将所述新词加入标准词库。
在一个优选地实施例中,结合上述描述,将所述新词加入标准词库后,将新加入的新词和标准词库中的其他词语进行比较,判断所属领域,了解语义,例如:“好学”这个新词和词库中“学习”这个词进行比较,计算向量夹角,如果夹角较小,说明领域大致相同,词义相近,可以大致判断所属的领域。
本领域技术人员理解,在现有技术中,筛选出的词语之前通过原始数据库,即BERT模型中的正例的语料进行对比,其准确度有所偏差,现在将过去几年中的海量语料,根据上述算法生成样本,可以判断是否为新词,因为过去的样本也包含大量误判词,可以进行一轮筛选,起到了降噪的作用,提高新词的准确性。
图3示出了本发明的第二实施例的,一种基于N-Gram算法以及待鉴定文本生成多个原始候选词的具体流程示意图,所述图3是所述步骤 S202的详细描述,具体地,在所述步骤S202中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:
首先,进入步骤S2021,将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数。
进一步地,将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数,本领域技术人员理解,若所述原始候选词为8 个,则所述N优选地可以为2、3、4、5、6、7,在这样的实施例中,基于二元组、三元组、四元组、五元组、六元组、七元组生成若干候选词,例如,所述原始候选词为“己所不欲勿施于人”,则根据上述划分方式,所述二元组为“己所”、“所不”、“不欲”、“欲勿”、“勿施”、“施于”、“于人”;所述三元组为“己所不”、“所不欲”、“不欲勿”、“欲勿施”、“勿施于”、“施于人”;所述四元组为“己所不欲”、“所不欲勿”、“不欲勿施”、“欲勿施于”、“勿施于人”;所述五元组为“己所不欲勿”、“所不欲勿施”、“不欲勿施于”、“欲勿施于人”;所述六元组为“己所不欲勿施”、“所不欲勿施于”、“不欲勿施于人”;所述七元组为“己所不欲勿施于”、“所不欲勿施于人”,进一步地,将每一个候选词根据鉴定词语的方式,判别候选词是否属于一个词语,若候选词属于一个词语,则针对现有词语进行过滤,如果不在现有词库中,则作为新词被发现。
最后,进入步骤S2022,将长度为N所形成的所有字符串确定为原始候选词,将长度为N所形成的所有字符串确定为原始候选词,结合上述步骤S2021,在本步骤中,将二元组、三元组、四元组、五元组、六元组、七元组生成的所有候选词确定为原始候选词。
本领域技术人员理解,本发明将N-Gram算法、特定的BERT模型以及神经网络相结合,提高了新词发现率,具体地,N-Gram可以提高词语发现覆盖率,特定的BERT可以发现词语间语义关系和联系,更重要的是,所述特定的BERT可以结合上下文语境,而深度神经网络算法可以借助数据拟合的分类能力高效发现新词,所述深度神经网络是在所述特定的BERT的基础上完成的结果输出。
进一步地,将上述三者进行结合之后,据研究数据表明,新词发现的准确性将远远大于不采用特定BERT模型的新词发现技术方案,而无论是单独将上述三种技术用于新词发现还是上述三种技术的任意两两组合,都无法达到本发明所记载的技术方案所能达到的技术效果,且上述三个技术特征为具有步骤特性的、先后顺序的、紧密相连的技术特征,即本发明是基于上述三个技术特征相结合的技术方案来实现的新词发现,相对于现有技术而言,本发明全程经过计算机大数据智能运算,基于搜索目标、范围可大量确定当前社会中出现的新词,拓展输入法词库,高效率、高概率的获取到大量新词。
更为具体地,本申请相对于现有技术而言,采用N-Gram算法、特定的BERT模型以及神经网络相结合的技术方案,发挥N-Gram算法在大数据中获取词汇的多样性、完整性的特点,使得在大数据中对新词进行发现、确定时不会出现遗漏,更加精准,在这样的实施例中,本申请面向开放领域可适用,只需要相应领域的数据作为系统的输入,即可发现该领域相应的新词,本申请基于N-Gram算法可以适用于各个领域的各个方面。
而特定BERT模型是本申请的核心,独特的编码格式所训练出的特定BERT模型将大大适应当前状态下的多个上下文语境中的一个词汇,进一步地,将多个上下文语境中的所述词汇作为输入进行训练,并结合字、字的语义信息、字的位置信息来更全面的理解、定位的词汇作用,其用于配合神经网络输出最后的新词判断结果,本申请相对于现有技术而言,判别是否是新词的方式更为简单,通过概率显示的方式直接呈现新词发现的结果,即在本申请中,直接通过768个维度的上下文候选词的向量化表示作为输入,经过深度神经网络的训练,从而得到多个输出为{y1,y2}的神经元,在多个神经元中取M个神经元的平均值作为成词神经元,所述成词神经元可直接判断是否是词语的神经元,然后再将这些词语在词库中进行大数据匹配,从而得到每个词语是新词的概率,从而可以人为的调整对于新词发现的调控,在这样的实施例中,若将确定词语是否为新词的概率的阈值定的越低,则可以获取到疑似新词的数量越多,但整体而言,准确率可能会有所降低,若将确定词语是否为新词的概率的阈值定的越高,则可以获取到疑似新词的数量越少,但整体而言,准确率可能会有所提高。更为具体地,无论确定词语是否为新词的概率的阈值定的是多少,在一个优选地实施例中,本申请只需将最新的网络文章放入到本申请所记载的技术方案中,即可快速发现新词,无需更改模型算法或更改模型参数。
结合上述实施例,本申请还可以减少标注数据集的准备,在现有的技术中,由于需要对新词的发现做预处理的数据标注,经常会耗费大量的人力、财力,而基于本申请的技术方案,经研究结果表明,可以减少约一半的标注数据集,从降低了人力、财力的损耗,提高了新词发现的效率。
图4示出了本发明的另一具体实施方式的,一种结合上下文语境的新词确定装置的模块连接示意图。本发明除了提供了一种结合上下文语境的新词确定方法之外,还提供了一种结合上下文语境的新词确定装置,其采用所述的确定方法,至少包括第一输出装置:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示,所述第一输出装置的工作原理可以参考前述步骤S101,在此不予赘述。
进一步地,所述新词确定装置还包括第二输出装置:基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元,所述第二输出装置的工作原理可以参考前述步骤S102,在此不予赘述。
进一步地,所述新词确定装置还包括第一确定装置:在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3,所述第一确定装置的工作原理可以参考前述步骤S103,在此不予赘述。
进一步地,所述新词确定装置还包括第二确定装置:基于TF-IDF 模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本,所述第二确定装置的工作原理可以参考前述步骤S201,在此不予赘述。
进一步地,所述新词确定装置还包括第一生成装置:基于N-Gram 算法以及所述待鉴定文本生成多个原始候选词,所述第一生成装置的工作原理可以参考前述步骤S202,在此不予赘述。
进一步地,所述第一生成装置包括第一处理装置:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,所述第一处理装置的工作原理可以参考前述步骤S2021,在此不予赘述。
进一步地,所述第一生成装置还包括第三确定装置:将长度为N所形成的所有字符串确定为原始候选词,所述第三确定装置的工作原理可以参考前述步骤S2022,在此不予赘述。
进一步地,所述新词确定装置还包括第二处理装置:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,所述第二处理装置的工作原理可以参考前述步骤S206,在此不予赘述。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
此外,本领域技术人员理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域技术人员理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的提供自定义生成图表的服务的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (22)
1.一种结合上下文语境的新词确定方法,其基于候选词在多个不同语境下BERT模型的输出结果来确定成词概率,其特征在于,至少包括如下步骤:
a:在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示,其中,所述上下文候选词至少包括原始候选词以及与所述原始候选词相对应地多个上下文信息;
b:基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元,其中,所述y1、y2的取值范围为0~1,y1与y2之和为1,当y1趋近于1时,所述原始候选词为词语的概率越大,当y2趋近于1时,所述原始候选词为词语的概率越小;
c:在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。
2.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,所述特定BERT模型的建立通过如下方式:将正例与反例按照特定比例输入到所述特定BERT模型,其中,所述正例至少包括字串以及与所述字串相对应的上下文编码,并按照格式为依次为TokenEmbeddings、Segment Embeddings以及Position Embeddings的形式作为输入,其中,所述Token Embeddings表示为每个字符位的具体值,所述Segment Embeddings表示为与所述字符位的具体值相对应的类别,所述类别至少包括赋值为A的词语以及赋值为B的上下文,所述Position Embeddings表示为与所述字符位的具体值相对应的位置编号。
3.根据权利要求2所述的确定方法,其特征在于,所述正例为词语以及与所述词语相对应的上下文,所述反例为非词语以及与所述反例相对应的正例的上下文。
4.根据权利要求2所述的确定方法,其特征在于,所述特定比例为如下比例中的任一种:
1:15;
1:28;或者
1:35。
5.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,所述上下文候选词向量化表示为768维的向量。
6.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的数据量对深度神经网络模型进行训练,并通过反向传播算法调节模型参数使得所述深度神经网络模型具备词语判别的能力,
其中,所述正例特征向量与标记为{1,0}的神经元相对应,所述负例特征向量与标记为{0,1}的神经元相对应。
8.根据权利要求6所述的确定方法,其特征在于,在所述步骤b中,将多个所述上下文候选词向量化表示进行输出通过如下方式:
L=-[yloga+(1-y)log(1-a)],其中,
y是预测的输出值,a是期望的输出,L是指交叉熵损失函数值loss。
9.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,将线性变换后的多个所述上下文候选词向量化表示输入一Softmax层,并输出成标记为{y1,y2}的多个神经元。
11.根据权利要求1所述的确定方法,其特征在于,在所述步骤c中,按照如下规则确定所选取的M个神经元:
-选取y1从高至低排列的前M个神经元;
-选取y1从低至高排列的前M个神经元;或者
-随机选取多个神经元中的M个神经元。
12.根据权利要求1所述的确定方法,其特征在于,在所述步骤c中,所述第一阈值的取值范围为:0.75~0.99。
13.根据权利要求1所述的确定方法,其特征在于,在所述步骤a之前,还包括如下步骤:
i:基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本,其中,所述第二阈值的取值范围为60%~96%;
ii:基于N-Gram算法以及所述待鉴定文本生成多个原始候选词,其中,将文本内容确定为所述待鉴定文本的形式至少包括字节流和/或字符流和/或词流。
14.根据权利要求13所述的确定方法,其特征在于,在所述步骤ii中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:
ii1:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数;
ii2:将长度为N所形成的所有字符串确定为原始候选词。
15.根据权利要求13所述的确定方法,其特征在于,在所述步骤ii之后,还包括:对多个所述原始候选词进行篇频过滤。
16.根据权利要求1所述的确定方法,其特征在于,在所述步骤c之后,还包括步骤:
d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。
17.根据权利要求16所述的确定方法,其特征在于,所述数据库为标准词库。
18.根据权利要求1所述的确定方法,其特征在于,所述上下文候选词向量化表示为所述BERT模型的第12层的输出结果。
19.一种结合上下文语境的新词确定装置,其采用如权利要求1-18中任一项所述的确定方法,其特征在于,至少包括:
第一输出装置(1):在特定BERT模型中将上下文候选词作为输入,并输出多个上下文候选词向量化表示;
第二输出装置(2):基于深度神经网络将多个所述上下文候选词向量化表示输出成标记为{y1,y2}的多个神经元;
第一确定装置(3):在多个神经元中取M个神经元的平均值作为成词神经元,并当所述成词神经元的y1大于第一阈值时,确定与所述成词神经元相对应地原始候选词为词语,其中,所述M≥3。
20.根据权利要求19所述的确定装置,其特征在于,还包括:
第二确定装置(4):基于TF-IDF模型将原始语料信息进行相似度匹配,并将相似度超过第二阈值的原始语料信息进行去重处理后确定待鉴定文本;
第一生成装置(5):基于N-Gram算法以及所述待鉴定文本生成多个原始候选词。
21.根据权利要求20所述的确定装置,其特征在于,所述第一生成装置(5)包括:
第一处理装置(51):将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串;
第三确定装置(52):将长度为N所形成的所有字符串确定为原始候选词。
22.根据权利要求19所述的确定装置,其特征在于,还包括:
第二处理装置(6):将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010977542.XA CN112434512A (zh) | 2020-09-17 | 2020-09-17 | 一种结合上下文语境的新词确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010977542.XA CN112434512A (zh) | 2020-09-17 | 2020-09-17 | 一种结合上下文语境的新词确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434512A true CN112434512A (zh) | 2021-03-02 |
Family
ID=74690152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010977542.XA Withdrawn CN112434512A (zh) | 2020-09-17 | 2020-09-17 | 一种结合上下文语境的新词确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434512A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883729A (zh) * | 2021-03-11 | 2021-06-01 | 网易(杭州)网络有限公司 | 文本创作的词汇推荐方法、装置及服务器 |
CN115496039A (zh) * | 2022-11-17 | 2022-12-20 | 荣耀终端有限公司 | 一种词语提取方法及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445915A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 一种新词发现方法及装置 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110909540A (zh) * | 2018-09-14 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信垃圾新词识别方法、装置及电子设备 |
CN111563143A (zh) * | 2020-07-20 | 2020-08-21 | 上海二三四五网络科技有限公司 | 一种新词的确定方法及装置 |
-
2020
- 2020-09-17 CN CN202010977542.XA patent/CN112434512A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445915A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 一种新词发现方法及装置 |
CN110909540A (zh) * | 2018-09-14 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信垃圾新词识别方法、装置及电子设备 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN111563143A (zh) * | 2020-07-20 | 2020-08-21 | 上海二三四五网络科技有限公司 | 一种新词的确定方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883729A (zh) * | 2021-03-11 | 2021-06-01 | 网易(杭州)网络有限公司 | 文本创作的词汇推荐方法、装置及服务器 |
CN112883729B (zh) * | 2021-03-11 | 2023-08-11 | 网易(杭州)网络有限公司 | 文本创作的词汇推荐方法、装置及服务器 |
CN115496039A (zh) * | 2022-11-17 | 2022-12-20 | 荣耀终端有限公司 | 一种词语提取方法及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111563143B (zh) | 一种新词的确定方法及装置 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
Shuang et al. | AELA-DLSTMs: attention-enabled and location-aware double LSTMs for aspect-level sentiment classification | |
CN113239181A (zh) | 基于深度学习的科技文献引文推荐方法 | |
CN111782768B (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113987187B (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111339440B (zh) | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN114579741B (zh) | 融合句法信息的gcn-rn方面级情感分析方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210302 |