CN111814473B - 特定领域的词向量增量方法、装置及存储介质 - Google Patents

特定领域的词向量增量方法、装置及存储介质 Download PDF

Info

Publication number
CN111814473B
CN111814473B CN202010950721.4A CN202010950721A CN111814473B CN 111814473 B CN111814473 B CN 111814473B CN 202010950721 A CN202010950721 A CN 202010950721A CN 111814473 B CN111814473 B CN 111814473B
Authority
CN
China
Prior art keywords
word vector
word
specific field
vector space
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010950721.4A
Other languages
English (en)
Other versions
CN111814473A (zh
Inventor
陈庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010950721.4A priority Critical patent/CN111814473B/zh
Publication of CN111814473A publication Critical patent/CN111814473A/zh
Application granted granted Critical
Publication of CN111814473B publication Critical patent/CN111814473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理技术领域,提供一种特定领域的词向量增量方法、装置及计算机可读存储介质,包括:收集特定领域的语料;将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间;根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为特定领域增量后的词向量。本发明能够解决现有技术中由于通用词向量太过于庞大,在此基础上继续训练需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,难以达到理想效果等问题。

Description

特定领域的词向量增量方法、装置及存储介质
技术领域
本发明属于数据处理技术领域,尤其涉及一种特定领域的词向量增量方法、装置及计算机可读存储介质。
背景技术
词向量(Word embedding)是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其是来自词汇表的单词或短语被映射到实数的向量。词向量是人类语言到计算机语言的重要桥梁,在自然语言处理领域起着至关重要的作用。
词向量的训练需要庞大的语料及训练资源。在实际使用过程中,往往都是在某个特定领域,如法律、医疗,其语料具有针对性,若扩充特定领域的词向量,目前的方法是,通用词向量与特定领域的语料共同进行增量训练,如Gensim包中将通用词向量读入再用领域语料进行增量训练,在这个过程中,通用词向量需要再优化,通用词向量可以通过现有的语料包得到,例如腾讯AI Lab,是一个通过巨大的中文语料训练出一个超过800万的通用语料词向量矩阵。
现有的方法由于通用词向量太过于庞大,在此基础上继续训练将需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,很难达到理想效果。
发明内容
基于上述现有技术中存在的问题,本发明提供一种特定领域的词向量增量方法、装置及计算机可读存储介质,其主要目的在于,通过将通用语料词向量空间与特定领域内的词向量空间进行空间融合,得到融合的词向量空间,从而达到特定领域的词向量增量的目的,能够解决现有技术中,由于通用词向量太过于庞大,在此基础上继续训练需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,难以达到理想效果等问题。
第一方面,为实现上述目的,本发明提供一种特定领域的词向量增量方法,该方法包括:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
第二方面,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被所述处理器执行时实现如下步骤:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
第三方面,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被处理器执行时,实现如上所述的特定领域的词向量增量方法中的任意步骤。
本发明提出的特定领域的词向量增量方法、装置及计算机可读存储介质,通过收集特定领域的语料;将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间;将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合,得到融合的词向量空间。采用词向量空间融合的方式,达到特定领域的词向量增量的目的,占用资源小,不受通用词向量大小影响,不强制要求使用大内存容量服务器;训练过程简单,速度快;在敏捷开发中可以做到快速迭代。
附图说明
图1为本发明特定领域的词向量增量方法较佳实施例的流程图;
图2为本发明特定领域的词向量增量方法较佳实施例的应用环境示意图;
图3为图2中特定领域的词向量增量程序较佳实施例的模块示意图;
图4为本发明特定领域的词向量增量方法对应的系统逻辑图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种特定领域的词向量增量方法。参照图1所示,为本发明特定领域的词向量增量方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,特定领域的词向量增量方法包括:步骤S110-步骤S130。
步骤S110,收集特定领域的语料。
具体的,从特定领域即需要扩充的领域内收集语料,如,特定领域为法律领域,则特定领域的语料可以为来自法律文书,法律文件、法律性质的论文等中的专业词汇,在特定领域的语料中往往记载有专业的词汇;再如,特定领域为医学领域,则特定领域的语料可以来自于医学书籍、医学病例等,在这些文件中记载有各种药物名称、病理术语等专业的词汇。收集方式可以通过各种专业数据库进行收集,当然也可采用其它方式,在此不作特别限定。
步骤S120,将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间。
具体的,将特定领域的语料进行分词处理,将分词后的每个词语对照该特定领域的预设词向量对照表,得到每个词语对应的词向量,所有的词向量形成特定领域的词向量空间;由于特定领域的预设词向量对照不能直接从网络或者资料库中直接得到,所以需要对特定领域的语料样本进行训练,从而得到特定领域的预设词向量对照表。
作为本发明的一个优选方案,预设词向量对照表存储于区块链中,在将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间之前,还包括:
对特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练,得到特定领域词向量;
将特定领域词向量加载至预设表格中,得到特定领域的预设词向量对照表。
具体的,特定领域的语料样本一般为句子或文章段落的形式存在,所以需要先对特定领域的语料样本进行分词处理,得到语料分词,采用CBOW模型和Skip-gram模型进行向量训练的过程中,需要从语料分词中确定出聚焦分词,与聚焦分词存在关联的上下文语境词,例如,一段散文“The recently introduced continuous Skip-gram model is anefficient method for learning high-quality distributed vector representationsthat capture a large number of precises syntatic and semantic wordrelationships.”,想象这段文字上有一个滑动窗口,包括当前的词和前后的四个词,“……an efficient method for learning high-quality distributed vector……”以“learning”为聚焦分词,则“learning”前后的四个词,分别为上文语境词和下文语境词。CBOW模型和Skip-gram模型为自然语言处理领域中常用的两个快速训练词向量的神经网络模型。通过将CBOW模型和Skip-gram模型词向量训练后得到的特定领域词向量加载至预设表格中,得到特定领域的预设词向量对照表,便于预设词向量对照表多次使用,将特定领域的预设词向量对照表存储于区块链中可以实现共享。
作为本发明的一个优选方案,通过CBOW模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将上文语境词的对应词向量和下文语境词的对应词向量输入CBOW模型的输入层,并将与上文语境词和下文语境词之间存在映射关系的聚焦词语作为CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由CBOW模型的的输出层输出。
具体的,上文语境词的对应词向量和下文语境词的对应词向量均是由one-hot形式表示的词向量,如果语料分词的词汇量是V,则每个词就表示成V维向量,相应的词对应元素被设置成1,其余的为0。
训练的目标是最大限度的观察实际输出词(聚焦词语)在给定输入上下文且考虑权重的条件概率,在上面的例子中,给出了输入(“一个”,“有效”,“方法”,“为”,“高”,“质量”,“分布式”,“向量”),要最大限度的获得“学习”作为输出的概率,再将输出“学习”概率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量输出。
作为本发明的一个优选方案,通过Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将聚焦词语的对应词向量输入Skip-gram模型的输入层,并将与聚焦词语之间存在映射关系的上文语境词和下文语境词作为CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的聚焦词语的对应词向量并由CBOW模型的的输出层输出。
具体的,用Skip-gram模型进行向量训练与CBOW模型的向量训练过程相反,训练的目标是最大限度的观察实际输出词(上语境词和下语境词)在给定输入聚焦词语且考虑权重的条件概率,在上面的例子中,给出了输入(“一个”,“有效”,“方法”,“为”,“高”,“质量”,“分布式”,“向量”),要最大限度的获得“学习”前后8个词作为输出的概率,再将输出这8个词的概率最高的语料分词中的聚焦分词的对应词向量输出。
作为本发明的一个优选方案,将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间,包括:
将特定领域内的语料进行分词处理,得到特定语料分词;
将特定语料分词与特定领域的预设词向量对照表比对,从特定领域的预设词向量对照表中,获取与特定语料分词相对应的特定领域词向量;
将所有的特定领域词向量组成特定领域内的词向量空间。
具体的,特定领域的语料为语句或者文章段落,需要先进行分词处理,得到特定语料分词后,与特定领域的预设词向量对照表比对,从而得到每个与特定语料分词相对应的特定领域词向量,再将所有特定领域词向量组成特定领域的词向量空间。
步骤S130,根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为特定领域增量后的词向量。
具体的,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合,得到融合的词向量空间,其中,通用语料词向量空间可来源于现有的通用语料词向量,例如,腾讯AI Lab,是一个通过巨大的中文语料训练出一个超过800万的通用语料词向量矩阵。
作为本发明的一个优选方案,根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取特定领域的词向量空间与预先获取的通用语料词向量空间共同的词向量;
根据共同的词向量,训练映射网络模型;
通过映射网络模型,将预先获取的通用语料词向量空间与特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间。
具体的,每个向量空间都有自己的词典列表,提取公共的词语或字段最简单的方式就是通过求两个空间词典列表的交集。数学上就是求集合的交集。
通用语料指的是我们日常遇到的文字,如报纸、新闻、日常聊天内容。
特定领域的语料即专业词汇指的是各个专业领域内的词汇,如医学领域内的各种药物名称,病理术语,这部分词汇外行人基本不会接触到。而专业领域内也会有部分词汇为众人所知,如医学领域内的常见疾病名称 感冒、骨折等,这部分词汇就是专业领域与通用领域的公共词汇。
两个领域内非公共词汇需要通过映射网络模型进行融合。
假设A领域有词 【W_a1, W_a2, W_a3, W_a4, W_a5, W_a6, W_ab1, W_ab2】, B领域有词【W_b1, W_b2, W_b3, W_ab1, W_ab2】,通过公共词汇f(Embedding_B(W_ab1)) ->Embedding_A(ab2)训练出映射函数f(x)。
B领域内的所有词通过f(x) 映射到A领域空间,形成新的向量为f(w_b),即得到两个向量空间的融合向量空间。
本发明提供的特定领域的词向量增量方法,应用于一种电子装置1。参照图2所示,为本发明特定领域的词向量增量方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口13及通信总线14。
存储器11包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡及卡型存储器11等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器11,例如电子装置1上配备的插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(FlashCard)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的特定领域的词向量增量程序10等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行特定领域的词向量增量程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其它电子设备之间建立通信连接。
通信总线14用于实现上述这些组件之间的连接通信。
图2仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括摄像装置,摄像装置既可以是电子装置1的一部分,也可以独立于电子装置1。在一些实施例中,电子装置1为智能手机、平板电脑、便携计算机等具有摄像头的终端设备,则摄像装置即为电子装置1的摄像头。在其他实施例中,电子装置1可以为服务器,摄像装置独立于该电子装置1、与该电子装置1通过有线或者无线网络连接。例如,该摄像装置安装于特定场所,如办公场所、监控区域,对进入该特定场所的目标进行实时拍摄得到实时图像,通过网络将拍摄得到的实时图像传输至处理器12。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。该触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。
可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图2所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统以及特定领域的词向量增量程序10;处理器12执行存储器11中存储的特定领域的词向量增量程序10时实现如下步骤:
步骤S110、收集特定领域的语料;
步骤S120、将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间;
步骤S130、根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
作为本发明的一个优选方案,预设词向量对照表存储于区块链中,在将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间之前,还包括:
对特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练,得到特定领域词向量;
将特定领域词向量加载至预设表格中,得到特定领域的预设词向量对照表。
作为本发明的一个优选方案,通过CBOW模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将上文语境词的对应词向量和下文语境词的对应词向量输入CBOW模型的输入层,并将与上文语境词和下文语境词之间存在映射关系的聚焦词语作为所述CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由所述CBOW模型的的输出层输出。
作为本发明的一个优选方案,通过Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将聚焦词语的对应词向量输入Skip-gram模型的输入层,并将与聚焦词语之间存在映射关系的上文语境词和下文语境词作为所述CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的聚焦词语的对应词向量并由所述CBOW模型的的输出层输出。
作为本发明的一个优选方案,将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间,包括:
将特定领域内的语料进行分词处理,得到特定语料分词;
将特定语料分词与特定领域的预设词向量对照表比对,从特定领域的预设词向量对照表中,获取与特定语料分词相对应的特定领域词向量;
将所有的特定领域词向量组成特定领域内的词向量空间。
作为本发明的一个优选方案,根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取特定领域的词向量空间与预先获取的通用语料词向量空间共同的词向量;
根据共同的词向量,训练映射网络模型;
通过映射网络模型,将预先获取的通用语料词向量空间与特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间。
在其他实施例中,特定领域的词向量增量程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。
本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图3所示,为图2中特定领域的词向量增量程序10较佳实施例的程序模块图。所述特定领域的词向量增量程序10可以被分割为:语料收集模块110、词向量空间获取模块120、空间融合模块130。所述模块110-130所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
语料收集模块110、用于收集特定领域的语料。
词向量空间获取模块120、用于将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间。
空间融合模块130、用于根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为特定领域增量后的词向量。
如图4所示,此外,与上述方法相对应,本发明的实施例还提出一种特定领域的词向量增量系统400,包括:语料收集单元410、词向量空间获取单元420、空间融合单元430,其中,语料收集单元410、词向量空间获取单元420和空间融合单元430的实现功能与实施例中特定领域的词向量增量方法的步骤一一对应。
语料收集单元410、用于收集特定领域的语料。
词向量空间获取单元420、用于将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间。
空间融合单元430、用于根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为特定领域增量后的词向量。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被处理器执行时实现如下操作:
收集特定领域的语料;
将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间;
根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
优选地,预设词向量对照表存储于区块链中,在将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间之前,还包括:
对特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练,得到特定领域词向量;
将特定领域词向量加载至预设表格中,得到特定领域的预设词向量对照表。
优选地,通过CBOW模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将上文语境词的对应词向量和下文语境词的对应词向量输入CBOW模型的输入层,并将与上文语境词和下文语境词之间存在映射关系的聚焦词语作为所述CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由所述CBOW模型的的输出层输出。
优选地,通过Skip-gram模型对聚焦分词、上文语境词和下文语境词进行词向量训练包括:
将聚焦词语的对应词向量输入Skip-gram模型的输入层,并将与聚焦词语之间存在映射关系的上文语境词和下文语境词作为所述CBOW模型的隐藏层;
通过激励函数计算出的准确率最高的语料分词中的聚焦词语的对应词向量并由所述CBOW模型的的输出层输出。
优选地,将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间,包括:
将特定领域内的语料进行分词处理,得到特定语料分词;
将特定语料分词与特定领域的预设词向量对照表比对,从特定领域的预设词向量对照表中,获取与特定语料分词相对应的特定领域词向量;
将所有的特定领域词向量组成特定领域内的词向量空间。
优选地,根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取特定领域的词向量空间与预先获取的通用语料词向量空间共同的词向量;
根据共同的词向量,训练映射网络模型;
通过映射网络模型,将预先获取的通用语料词向量空间与特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间。
本发明之计算机可读存储介质的具体实施方式与上述特定领域的词向量增量方法、电子装置的具体实施方式大致相同,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种特定领域的词向量增量方法,应用于电子装置,其特征在于,所述方法包括:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量;其中,
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取所述特定领域的词向量空间与所述预先获取的通用语料词向量空间共同的词向量;
根据所述共同的词向量,训练映射网络模型;
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间;
两个领域内非公共词汇需要通过映射网络模型进行融合;其中,
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间包括:
所述特定领域的词向量空间A包括以下词向量【W_a1, W_a2, W_a3, W_a4, W_a5, W_a6, W_ab1, W_ab2】,所述通用语料词向量空间B括以下词向量【W_b1, W_b2, W_b3, W_ab1, W_ab2】;
通过f(Embedding_B(W_ab1)) -> Embedding_A(W_ab1)训练出映射函数f(x);
将所述映射函数f(x)作为映射网络模型,并通过所述映射函数f(x)将所述通用语料词向量空间B内的词向量映射到所述特定领域的词向量空间A内,形成融合的词向量空间f(w_b)。
2.根据权利要求1所述的特定领域的词向量增量方法,其特征在于,所述预设词向量对照表存储于区块链中,在将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间之前,还包括:
对所述特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将所述语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练,得到特定领域词向量;
将所述特定领域词向量加载至预设表格中,得到所述特定领域的预设词向量对照表。
3.根据权利要求2所述的特定领域的词向量增量方法,其特征在于,通过所述CBOW模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练包括:
将所述上文语境词的对应词向量和所述下文语境词的对应词向量输入所述CBOW模型的输入层,并将与所述上文语境词和所述下文语境词之间存在映射关系的聚焦词语作为所述CBOW模型的隐藏层;
通过激励函数计算出准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由所述CBOW模型的输出层输出。
4.根据权利要求3所述的特定领域的词向量增量方法,其特征在于,通过所述Skip-gram模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练包括:
将所述聚焦词语的对应词向量输入所述Skip-gram模型的输入层,并将与所述聚焦词语之间存在映射关系的上文语境词和下文语境词作为所述CBOW模型的隐藏层;
通过激励函数计算出准确率最高的语料分词中的聚焦词语的对应词向量并由所述CBOW模型的输出层输出。
5.根据权利要求1所述的特定领域的词向量增量方法,其特征在于,将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间,包括:
将所述特定领域的语料进行分词处理,得到特定语料分词;
将所述特定语料分词与所述特定领域的预设词向量对照表比对,从所述特定领域的预设词向量对照表中,获取与所述特定语料分词相对应的特定领域词向量;
将所有的特定领域词向量组成特定领域的词向量空间。
6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被所述处理器执行时实现如下步骤:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量;其中,
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取所述特定领域的词向量空间与所述预先获取的通用语料词向量空间共同的词向量;
根据所述共同的词向量,训练映射网络模型;
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间;其中,
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间包括:
所述特定领域的词向量空间A包括以下词向量【W_a1, W_a2, W_a3, W_a4, W_a5, W_a6, W_ab1, W_ab2】,所述通用语料词向量空间B括以下词向量【W_b1, W_b2, W_b3, W_ab1, W_ab2】;
通过f(Embedding_B(W_ab1)) -> Embedding_A(W_ab1) 训练出映射函数f(x);
将所述映射函数f(x)作为映射网络模型,并通过所述映射函数f(x)将所述通用语料词向量空间B内的词向量映射到所述特定领域的词向量空间A内,形成融合的词向量空间f(w_b)。
7.根据权利要求6所述的电子装置,其特征在于,所述预设词向量对照表存储于区块链中,在将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间之前,还包括:
对所述特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将所述语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练,得到特定领域词向量;
将所述特定领域词向量加载至预设表格中,得到所述特定领域的预设词向量对照表。
8.根据权利要求7所述的电子装置,其特征在于,通过所述CBOW模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练包括:
将所述上文语境词的对应词向量和所述下文语境词的对应词向量输入所述CBOW模型的输入层,并将与所述上文语境词和所述下文语境词之间存在映射关系的聚焦词语作为所述CBOW模型的隐藏层;
通过激励函数计算出准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由所述CBOW模型的输出层输出。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被处理器执行时,实现如权利要求1至5中任一项所述的特定领域的词向量增量方法的步骤。
CN202010950721.4A 2020-09-11 2020-09-11 特定领域的词向量增量方法、装置及存储介质 Active CN111814473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010950721.4A CN111814473B (zh) 2020-09-11 2020-09-11 特定领域的词向量增量方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010950721.4A CN111814473B (zh) 2020-09-11 2020-09-11 特定领域的词向量增量方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111814473A CN111814473A (zh) 2020-10-23
CN111814473B true CN111814473B (zh) 2020-12-22

Family

ID=72860069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010950721.4A Active CN111814473B (zh) 2020-09-11 2020-09-11 特定领域的词向量增量方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111814473B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776534B (zh) * 2016-11-11 2020-02-11 北京工商大学 词向量模型的增量式学习方法
CN106844342B (zh) * 2017-01-12 2019-10-08 北京航空航天大学 基于增量学习的词向量生成方法和装置
US10846319B2 (en) * 2018-03-19 2020-11-24 Adobe Inc. Online dictionary extension of word vectors
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN109359302B (zh) * 2018-10-26 2023-04-18 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning

Also Published As

Publication number Publication date
CN111814473A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN112507125A (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
CN111984851B (zh) 医学资料搜索方法、装置、电子装置及存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN111180086B (zh) 数据匹配方法、装置、计算机设备和存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110866098A (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN113889074A (zh) 语音生成方法、装置、设备及介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN111400439A (zh) 网络不良数据监控方法、装置及存储介质
CN112307175B (zh) 一种文本处理方法、装置、服务器及计算机可读存储介质
CN111382243A (zh) 文本的类别匹配方法、类别匹配装置及终端
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN111814473B (zh) 特定领域的词向量增量方法、装置及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN112016309B (zh) 抽取药物组合方法、设备、装置及存储介质
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
CN112784594A (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant