CN112632981A - 一种新词发现方法和装置 - Google Patents
一种新词发现方法和装置 Download PDFInfo
- Publication number
- CN112632981A CN112632981A CN201910904945.9A CN201910904945A CN112632981A CN 112632981 A CN112632981 A CN 112632981A CN 201910904945 A CN201910904945 A CN 201910904945A CN 112632981 A CN112632981 A CN 112632981A
- Authority
- CN
- China
- Prior art keywords
- word
- new
- bio
- words
- segmentation processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种新词发现方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于词库对待分割字符串进行分词处理;对分词处理后的结果进行BIO标注;使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;使用所述命名实体识别模型,预测待预测字符串的BIO标注;根据所述待预测字符串的BIO标注合成词语;对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。该实施方式避免了获取训练样本时大量打标的问题,基于发现的新词提高了分词处理的准确性以及发现新词的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种新词发现方法和装置。
背景技术
随着各行各业的蓬勃发展,越来越多的新词被创造、使用,为保证各领域中自认语言处理时分词结果的准确性,发现新词成为了研究的重点,尤其是在电商领域,随着大量品牌词、产品词、属性词的涌现,准确地识别词汇是商品搜索、个性化推荐的关键所在。
目前,常用的新词发现方法有两种:基于规则的新词发现方法;基于统计的新词发现方法。其中,基于统计的新词发现方法,则包括有监督和无监督两种类型。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:有监督需要详细标注的语料库,而获取详细标注的语料库往往是很困的;在分词处理过程中,非常依赖现有的词库,而现有的词库对新词的收录有限,使得分词处理时的准确率不足,进而导致了新词发现的准确性。
发明内容
有鉴于此,本发明实施例提供一种新词发现方法和装置,不仅能够基于现有的词库发现新词,还能不断提高发现新词的质量及效率。
为实现上述目的,根据本发明的第一方面,提供了一种新词发现方法,包括:基于词库对待分割字符串进行分词处理;对分词处理后的结果进行BIO标注;使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;使用所述命名实体识别模型,预测待预测字符串的BIO标注;根据所述待预测字符串的BIO标注合成词语;对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
可选地,还包括:对所述待分割字符串进行无监督预训练,用以生成词向量;使用所述词向量及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。
可选地,还包括:根据下述的一项或多项,对所获取的新词进行筛选:新词的频率、新词的内部凝固程度、新词的信息熵。
可选地,还包括:将筛选后的新词添加至所述词库。
可选地,使用Masked LM方法或Google BERT模型,对所述待分割字符串进行无监督预训练,用以生成词向量。
为实现上述目的,根据本发明的第二方面,提供了一种新词发现装置,包括:分词处理模块、BIO标注模块、模型获取模块、BIO标注预测模块、词语合成模块、新词获取模块;其中,所述分词处理模块,用于基于词库对待分割字符串进行分词处理;所述BIO标注模块,用于对分词处理后的结果进行BIO标注;所述模型获取模块,用于使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;所述BIO标注预测模块,用于使用所述命名实体识别模型,预测待预测字符串的BIO标注;所述词语合成模块,用于根据所述待预测字符串的BIO标注合成词语;所述新词获取模块,用于对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
为实现上述目的,根据本发明的第三方面,提供了一种用于新词发现的服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述新词发现方法中任一所述的方法。
为实现上述目的,根据本发明的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上所述新词发现方法中任一所述的方法。
由于采用了上述技术手段,本发明具有如下优点或有益效果:基于词库的分词处理,获取了初步训练样本,避免了大量打标的问题;通过强大的预训练生成的词向量,可以更好地抽取词语在文本语境中的语义信息以及词性、分类等,保证了训练样本中词向量的准确性;基于预训练的词向量及BIO标注训练得到的,命名实体识别模型可以有效地预测词语的分类或者BIO标注,进而通过与分词处理结果的对比可以有效地发现新词,同时,还可以基于发现的新词,进一步提高分词处理结果的准确性。除此之外,在发现新词后,通过对新词的筛选和评估保证了添加到词库的新词质量,通过不断地扩充词库,循环地新词发现,进一步提高了新词识别的效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的新词发现方法的主要流程的示意图;
图2a是根据本发明实施例的BIO标注结果示意图;
图2b是根据本发明实施例的预测的BIO标注结果示意图;
图2c是根据本发明实施例的合成词语结果示意图;
图3是根据本发明实施例的另一新词发现方法的主要流程的示意图;
图4是根据本发明实施例的新词发现装置的主要模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明实施例提供了一种新词发现方法,可以包括的具体步骤如下:
步骤S101,基于词库对待分割字符串进行分词处理。
词库为各个领域现有的词库,待分割字符串为通过网络、书籍、期刊杂志等多种渠道收集到的各个领域的文本素材库,且该文本素材库随着时间的累积不断地更新、扩充,如电子商务领域中通过电子商务平台收集到的商家店铺信息、商品信息、用户评论等。在无特殊说明的情况下本申请实施例均以使用电子商务(简称电商)领域词库,待分割字符串为收集的电商领域标题为例进行说明:电商领域词库中收录了标题中含有的相关词汇以及对应的类型,即产品词(P)、品牌词(B)、属性词(Q)、数量词(D)、场地词(L)、其他(O)等。在基于词库分割待分割字符串的过程中,可以把分割后得到的词在字符串中的位置相连作为边,将分割后得到的词的左右熵作为权建立有向图;最后动态规划求有向图中的最大熵值路径,得出最佳分割结果。具体地,以分割标题“新品2018冬季新款老年男士羊毛衫休闲加厚大码打底衫上青165/105/m”为例进行说明,分词处理的结果如下:新品-B,2018冬季-D,新款-Q,老年-O,男士-Q,羊毛衫-P,休闲-Q,加厚-Q,大码-Q,打底衫-P,上青-O,165/105-D,/-O,m-Q。
步骤S102,对分词处理后的结果进行BIO标注。
BIO标注是自然语言处理中一种常用的序列标注方法,是指将标签B、I、O标注在词语或分词处理后的结果的每一个元素上。其中,B(Begin)表示元素位于一个词语或者分词处理的结果的开始,I(Inside)表示元素位于一个词语或者分词处理的结果内部,O表示元素位于一个词语或者分词处理的结果外部(Outside)。具体地,在本申请的实施例中,BIO标注是指将分词处理得到的每个片段中含有的每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。其中,X类型包括产品词(P)、品牌词(B)、属性词(Q)、数量词(D)、场地词(L)、其他(O)等。
具体地,参见图2a,提供了标题“微醺2018新款高腰哈伦裤秋冬加厚pu皮宽松显瘦小脚裤休闲加绒裤tr0619黑色【加绒】3xl”对应的分词处理及BIO标注后的结果。其中标题分词处理以后得到了微醺-B、2018-D、新款-Q等多个片段,然后基于每一个片段中元素在片段的位置进行BIO标注,如以片段“微醺-B”为例进行说明,元素“微”位于片段的开头,故标注为“B-B”,元素“醺”位于片段的中间位置或非开头的位置,故标注为“I-B”。
步骤S103,使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型。
命名实体识别模型(NER)本质上是一个多分类模型,其任务目标是识别出标题句子中的产品词、品牌词、属性词、数量词、其他词等。具体地,以分词处理后的片段对应的词向量、以及对应的标注“B-X”为训练样本进行无监督训练,词向量表示了对应的词或者片段在字符串中的语义信息。由此,避免了大量样本打标的过程,同时,又可以基于获得的命名实体识别模型对分词处理的结果进行匹配或者校正。可以理解的是,可以通过Word2vector、Glove、FastText等多种方法获取标题或者分词处理以后的片段对应的词向量,用作训练样本。
在一种可选的实施方式中,对所述待分割字符串进行无监督预训练,用以生成词向量;使用所述词向量及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。经过预训练后生成的词向量能够更好地表示待分割字符串中片段在待分割字符串中的语义信息,也即是说,可以提高基于词库进行分词处理的结果的准确性。
在一种可选的实施方式中,使用Masked LM方法或Google BERT模型,对所述待分割字符串进行无监督预训练,用以生成词向量。Masked LM采取的方式是随机掩盖住输入句子的一些词,然后在预训练中对它们进行预测,比较成熟的代表就是Google BERT(Bidirectional Encoder Representations from Transformers)模型。这种训练方式的优点在于能学习到表征句子左右两个方向上的上下文内容,使得得到的词向量更准确地表述语境上下文中的语义信息。
步骤S104,使用所述命名实体识别模型,预测待预测字符串的BIO标注。
由于新词汇、新短文本源源不断地产生,为及时发现已经产生的新词进而扩充词库,待预测字符串可以是收集到的任何可能存在新词的文本素材,如通过电子商务平台获取的新上商品的标题、新接入电子商务平台的商家店铺信息、商家店铺更新的产品信息、用户评价等,其中可能含有新的商品名、品牌名、店铺名等。可以理解的是,为提高命名实体识别模型预测的准确性,以便更精准地发现新词,用于训练得到命名实体识别模型的待分割字符串与用以发现新词的待预测字符串应当是不同的文本素材。
参见图2b,提供了名实体识别模型预测的标题“新品2018冬季新款老年男士羊毛衫休闲加厚大码打底衫上青165/105/m”对应的BIO标注。其中,[CLS]表示句子的开始,[SEP]表示句子的结束。
步骤S105,根据所述待预测字符串的BIO标注合成词语。
参见图2c,在上述步骤的基础上,根据图2b中提供的标题“新品2018冬季新款老年男士羊毛衫休闲加厚大码打底衫上青165/105/m”对应的BIO标注,按照BIO标注规则进行词语合成,得到的结果详见图2c或如下:
[CLS]-[CLS],新品-B,2018冬季-D,新款-Q,老年-O,男士-Q,羊毛衫-P,休闲-Q,加厚-Q,大码-Q,打底衫-P,上青-O,165/105-D,/-O,m-Q,[SEP]-[SEP]。
步骤S106,对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
在得到了如图2c所示的词语合成结果的基础上,可以将合成的结果与步骤S101中标题的分词处理结果进行比对,若有不同则认为仅在词语合成结果出现的词语为要发现的新词。如以待预测字符串“统领铸钢减速带铸铁道路减速板”为例进行说明,在基于现有的电子商务领域词库对待预测字符串进行分词处理后得到的分词处理结果为“统-O,领-O,铸钢-O,减速带-P,铸铁-O,道路-O,减速板-P”;使用命名实体识别模型预测待待预测字符串“统领铸钢减速带铸铁道路减速板”的BIO标注并得到的合成词语则为“统领-B,铸钢-O,减速带-P,铸铁-O,道路-O,减速板-P”。经对比可知,相较于分析处理结果,合成的词语中新出现了“统领-B”,即认为“统领-B”为一个新的品牌词。
由于文本语料库数量庞大,发现的新词质量参差不齐,为保证发现新词的质量,考虑对发现的新词通过一定的规则进行评估或者筛选。
在一种可选的实施方式中,根据下述的一项或多项,对所获取的新词进行筛选:新词的频率、新词的内部凝固程度、新词的信息熵。
新词的频率,即为新词出现的频率,若频率则说明该新词成为一个高质量新词的可能性就越高。因而可以根据实际需求,设定一个频率阈值,去除频率低于该阈值的新词。
新词的内部凝固程度,则用来衡量词搭配(collocation)是否合理。如假设二元组词C由词A和词B组成,三者单独出现的概率分别是P(C)、P(A)和P(B)。如果C是真正的词,那么A和B不是独立的,则两个词同时出现的概率会大于P(A)*P(B),即P(C)>>P(A)*P(B)。如果C可拆分为A和B两个词,那么A和B是独立的,则两个词同时出现的概率为P(A)*P(B)。故可设置一个内部凝固度阈值,按照如下公式进行筛选,仅保留高于内部凝固度阈值的新词,可以有效防止提取出“的电影”、“了一”一类的垃圾词组。
新词的信息熵,代表词的左邻字集合和右邻字集合的丰富程度,信息熵越高,则新词的质量相对越高。可以根据实际需要设置一个信息熵阈值,并根据下述公式进行筛选,仅保留信息熵高于信息熵阈值的新词。
其中,pi为左邻字集合或右邻字集合中某一元素出现的概率。
具体地,以“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”为例进行说明,“葡萄”一词出现了四次,其中左邻字集合为{吃,吐,吃,吐},右邻字集合为{不,皮,倒,皮}。根据公式,“葡萄”一词的左邻字的信息熵为-(1/2)·log(1/2)-(1/2)·log(1/2)≈0.693,右邻字的信息熵则为-(1/2)·log(1/2)-(1/4)·log(1/4)-(1/4)·log(1/4)≈1.04,“葡萄”的信息熵则为1.733(即0.693与1.04之和)。
在一种可选的实施方式中,将筛选后的新词添加至所述词库。
经过新词的过滤及评估,可以有效地筛除一些垃圾词汇。同时,为保证基于词库进行分词处理的结果的正确性,考虑将新发新的筛选后的高质量的新词,添加到词库中,使得后续分词处理的结果越来越准确,并基于新的分词处理结果训练得到新的更优化的命名实体识别模型。如此,经过循环式的模型训练,经过一定时间的新词积累后,新训练得到的命名实体识别模型能较快地识别出新出现的词汇。
基于上述实施例,本发明实施例提供的新词发现方法,基于词库的分词处理,获取了初步训练样本,避免了大量打标的问题;通过强大的预训练生成的词向量,可以更好地抽取词语在文本语境中的语义信息以及磁词性、分类等,保证了训练样本中词向量的准确性;基于预训练的词向量及BIO标注训练得到的,命名实体识别模型可以有效地预测词语的分类或者BIO标注,进而通过与分词处理结果的对比可以有效地发现新词,同时,还可以基于发现的新词,进一步提高分词处理结果的准确性。除此之外,在发现新词后,通过对新词的筛选和评估保证了添加到词库的新词质量,通过不断地扩充词库,循环地发现新词,进一步提高了新词识别的效率及准确率。
参见图3,在上述实施例的基础上,本发明实施例提供了一种新词发现方法,具体包括的步骤如下:
步骤S201,基于词库对待分割字符串进行分词处理。
步骤S202,对分词处理后的结果进行BIO标注。
步骤S203,对所述待分割字符串进行无监督预训练,用以生成词向量。
具体地,使用Masked LM方法或开源的Google BERT模型,对所述待分割字符串进行无监督预训练,用以生成词向量。具体地,以对my dog is hairy进行训练为例进行说明:
80%的时间:用一个特殊的词(token):[MASK]掩盖之前选择的词。例如:将my dogis hairy替换为my dog is[Mask]。
10%的时间,替换为随机的其他词(tokens)。例如:将my dog is hairy替换为mydog is apple。
10%保持原来的词不变。例如:将my dog is hairy替换为my dog is hairy。
也即是说,Masked LM采取的方式是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的词来代替它们。尽管模型最终还是会看到所有位置上的输入信息,但由于需要预测的词已经被特殊的词代替,所以模型无法事先知道这些位置上是什么词,这样就可以让模型根据所给的标签去学习这些地方该填的词了。同时,由于在预训练过程中所使用的这个特殊的词,在后续的任务中是不会出现的,因此为了和后续任务保持一致,按一定的比例在需要预测的词位置上输入原词或者输入某个随机的词。
步骤S204,使用所述词向量以及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。
以词向量、以及对应的标注“B-X”为训练样本进行无监督训练,用以获得命名实体识别模型。
步骤S205,使用所述命名实体识别模型,预测待预测字符串的BIO标注。
步骤S206,根据所述待预测字符串的BIO标注合成词语。
步骤S207,对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
步骤S208,根据下述的一项或多项,对所述获取的信息进行筛选:新词的频率、新词的内部凝固度、新词的信息熵。
步骤S209,将筛选后的新词添加至所述词库。
参见图4,本发明实施例提供了一种新词发现装置400,包括:包括:分词处理模块401、BIO标注模块402、模型获取模块403、BIO标注预测模块404、词语合成模块405、新词获取模块406;其中,
所述分词处理模块401,用于基于词库对待分割字符串进行分词处理;
所述BIO标注模块402,用于对分词处理后的结果进行BIO标注;
所述模型获取模块403,用于使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;
所述BIO标注预测模块404,用于使用所述命名实体识别模型,预测待预测字符串的BIO标注;
所述词语合成模块405,用于根据所述待预测字符串的BIO标注合成词语;
所述新词获取模块406,用于对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
在一种可选的实施方式中,还包括:预训练模块407;所述预训练模块407,用于对所述待分割字符串进行无监督预训练,用以生成词向量;所述模型获取模块403,还用于使用所述词向量及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。
在一种可选的实施方式中,所述新词获取模块406,还用于根据下述的一项或多项,对所获取的新词进行筛选:新词的频率、新词的内部凝固程度、新词的信息熵。
在一种可选的实施方式中,所述新词获取模块406,还用于将筛选后的新词添加至所述词库。
在一种可选的实施方式中,所述预训练模块407,用于使用Masked LM方法或Google BERT模型,对所述待分割字符串进行无监督预训练,用以生成词向量。
本发明实施例还提供了一种用于新词发现的服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前述实施例中任一所述的新词发现方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如前述实施例中任一所述的新词发现方法。
图5示出了可以应用本发明实施例的页面配置方法或页面配置装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如新词)反馈给终端设备。
需要说明的是,本发明实施例所提供的新词发现方法一般由服务器505执行,相应地,新词发现装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词处理模块、BIO标注模块、模型获取模块、BIO标注预测模块、词语合成模块、新词获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分词处理模块还可以被描述为“基于词库对待分割字符串进行分词处理的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:基于词库对待分割字符串进行分词处理;对分词处理后的结果进行BIO标注;使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;使用所述命名实体识别模型,预测待预测字符串的BIO标注;根据所述待预测字符串的BIO标注合成词语;对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
根据本发明实施例的技术方案,基于词库的分词处理,获取了初步训练样本,避免了大量打标的问题;通过强大的预训练生成的词向量,可以更好地抽取词语在文本语境中的语义信息以及词性、分类等,保证了训练样本中词向量的准确性;基于预训练的词向量及BIO标注训练得到的,命名实体识别模型可以有效地预测词语的分类或者BIO标注,进而通过与分词处理结果的对比可以有效地发现新词,同时,还可以基于发现的新词,进一步提高分词处理结果的准确性。除此之外,在发现新词后,通过对新词的筛选和评估保证了添加到词库的新词质量,通过不断地扩充词库,循环地新词发现,进一步提高了新词识别的效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种新词发现方法,其特征在于,包括:
基于词库对待分割字符串进行分词处理;
对分词处理后的结果进行BIO标注;
使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;
使用所述命名实体识别模型,预测待预测字符串的BIO标注;
根据所述待预测字符串的BIO标注合成词语;
对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
2.根据权利要求1所述的新词发现方法,其特征在于,还包括:
对所述待分割字符串进行无监督预训练,用以生成词向量;
使用所述词向量及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。
3.根据权利要求1所述的新词发现方法,其特征在于,还包括:
根据下述的一项或多项,对所获取的新词进行筛选:新词的频率、新词的内部凝固程度、新词的信息熵。
4.根据权利要求3所述的新词发现方法,其特征在于,还包括:
将筛选后的新词添加至所述词库。
5.根据权利要求1所述的新词发现方法,其特征在于,使用Masked LM方法或GoogleBERT模型,对所述待分割字符串进行无监督预训练,用以生成词向量。
6.一种新词发现装置,其特征在于,包括:分词处理模块、BIO标注模块、模型获取模块、BIO标注预测模块、词语合成模块、新词获取模块;其中,
所述分词处理模块,用于基于词库对待分割字符串进行分词处理;
所述BIO标注模块,用于对分词处理后的结果进行BIO标注;
所述模型获取模块,用于使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;
所述BIO标注预测模块,用于使用所述命名实体识别模型,预测待预测字符串的BIO标注;
所述词语合成模块,用于根据所述待预测字符串的BIO标注合成词语;
所述新词获取模块,用于对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。
7.一种用于新词发现的服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904945.9A CN112632981A (zh) | 2019-09-24 | 2019-09-24 | 一种新词发现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904945.9A CN112632981A (zh) | 2019-09-24 | 2019-09-24 | 一种新词发现方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632981A true CN112632981A (zh) | 2021-04-09 |
Family
ID=75282644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910904945.9A Pending CN112632981A (zh) | 2019-09-24 | 2019-09-24 | 一种新词发现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632981A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191151A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种医疗命名实体一词多标的识别方法、装置及电子设备 |
-
2019
- 2019-09-24 CN CN201910904945.9A patent/CN112632981A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191151A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种医疗命名实体一词多标的识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
US11062089B2 (en) | Method and apparatus for generating information | |
US20190370305A1 (en) | Method and apparatus for providing search results | |
CN107679217B (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
Vogels et al. | Web2text: Deep structured boilerplate removal | |
US11361030B2 (en) | Positive/negative facet identification in similar documents to search context | |
CN107832287A (zh) | 一种标签识别方法及装置、存储介质、终端 | |
CN110008474B (zh) | 一种关键短语确定方法、装置、设备及存储介质 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN110866107A (zh) | 素材语料的生成方法、装置、计算机设备和存储介质 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN109284367B (zh) | 用于处理文本的方法和装置 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
JP2020191076A (ja) | Apiドキュメンテーションからのapiエンドポイント記述の予測 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
Rashid et al. | Analysis of streaming data using big data and hybrid machine learning approach | |
CN112988753A (zh) | 一种数据搜索方法和装置 | |
CN112084448A (zh) | 相似信息处理方法以及装置 | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
Wei et al. | Hierarchical interaction networks with rethinking mechanism for document-level sentiment analysis | |
CN110147482B (zh) | 用于获取突发热点主题的方法和装置 | |
CN112905753A (zh) | 一种判别文本信息的方法和装置 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN112632981A (zh) | 一种新词发现方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |