CN111611798B - 一种词向量处理方法及装置 - Google Patents
一种词向量处理方法及装置 Download PDFInfo
- Publication number
- CN111611798B CN111611798B CN202010459596.7A CN202010459596A CN111611798B CN 111611798 B CN111611798 B CN 111611798B CN 202010459596 A CN202010459596 A CN 202010459596A CN 111611798 B CN111611798 B CN 111611798B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- words
- stroke
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 256
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 41
- 238000012512 characterization method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 21
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 230000009191 jumping Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例公开了一种词向量处理方法及装置。所述方法包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。利用本申请实施例,可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好。
Description
技术领域
本申请涉及计算机软件技术领域,尤其涉及一种词向量处理方法及装置。
背景技术
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。
在现有技术中,常见的用于生成词向量的算法是专门针对英文设计的。比如,谷歌公司的单词向量算法、脸书公司的n元字符算法、微软公司的深度神经网络算法等。
但是,现有技术的这些算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差。
发明内容
本申请实施例提供一种词向量处理方法及装置,用以解决现有技术中用于生成词向量的算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差的问题。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供的一种词向量处理方法,包括:
对语料分词得到各词;
确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;
建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;
根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
本申请实施例提供的一种词向量处理装置,包括:
分词模块,对语料分词得到各词;
确定模块,确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;
初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;
训练模块,根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好,因此,可以部分或全部地解决现有技术中的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种词向量处理方法的流程示意图;
图2为本申请实施例提供的实际应用场景下,所述词向量处理方法的一种具体实施方案的流程示意图;
图3为本申请实施例提供的图2中流程所使用的部分语料的相关处理动作示意图;
图4为本申请实施例提供的对应于图1的一种词向量处理装置的结构示意图。
具体实施方式
本申请实施例提供一种词向量处理方法及装置。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的方案适用于中文词的词向量,也适用于类似中文的其他语言的词的词向量,比如,日文等笔画特征较明显的语言的词的词向量等。
图1为本申请实施例提供的一种词向量处理方法的流程示意图,该流程的执行主体可以是具有词向量生成功能和/或训练功能的程序。从设备角度而言,该流程的执行主体可以包括但不限于可搭载所述程序的以下设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101:对语料分词得到各词。
在本申请实施例中,所述各词具体可以是:语料中至少出现过一次的各词中的至少部分词。为了便于后续处理,可以将各词保存在词汇表中,需要使用时从词汇表中读取词即可。
S102:确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画。
为了便于理解,以中文为例,对“n元笔画”进一步地解释。对于中文字或者词,笔画包括“横”、“竖”、“撇”、“捺”、“折”、“点”、“提”等几种,n元笔画可以表征1个中文字或词连续n个笔画。
例如,对于“珍”字。其对应的3元笔画为:“横、横、竖”(第1~3个笔画),“横、竖、提”(第2~4个笔画)、“竖、提、撇”等(第3~5个笔画);其对应的4元笔画为:“横、横、竖、提”(第1~4个笔画)、“横、竖、提、撇”(第2~5个笔画)等。
又例如,对于词“大人”。其对应的3元笔画为:“横、撇、捺”(第1~3个笔画),“撇、捺、撇”(第2~4个笔画)等;其对应的4元笔画为:“横、撇、捺、撇”(第1~4个笔画)、“撇、捺、撇、捺”(第2~5个笔画)等。
在本申请实施例中,n的取值可以是动态可调的。对于同一个词,在确定该词对应的各n元笔画时,n的取值可以只取1个(比如,只确定该词对应的各3元笔画),也可以取多个(比如,确定该词对应的各3元笔画和各4元笔画)。当n的取值为某个特定数值时,n元笔画可能恰好为字的偏旁部首,当n的取值恰好为字或词的总笔画数时,n元笔画恰好为该字或该词。
在本申请实施例中,为了便于计算机处理,n元笔画可以用指定的代码进行表示。比如,可以将不同的笔画分别用一个不同的数字表示,则n元笔画相应地可以表示为数字串。
S103:建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量。
在本申请实施例中,为了保证方案的效果,在初始化词向量和笔画向量时,可能会有一些限制条件。比如,不能将各词向量和各笔画向量都初始化为相同的向量;又比如,某些词向量或笔画向量中的向量元素取值不能全为0;等等。
在本申请实施例中,可以采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,其中,相同n元笔画的笔画向量也相同。比如,所述指定概率分布可以是0-1分布等。
另外,若之前已经基于其他语料,训练过某些词对应的词向量及笔画向量,则在进一步地基于图1中的语料训练这些词对应的词向量及笔画向量时,可以不再重新建立并初始化这些词对应的词向量及笔画向量,而是基于图1中的语料和之前的训练结果,再进行训练即可。
S104:根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
在本申请实施例中,所述训练可以是通过神经网络实现的,所述神经网络包括但不限于浅层神经网络和深层神经网络。
通过图1的方法,可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好,因此,可以部分或全部地解决现有技术中的问题。
基于图1的方法,本申请实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本申请实施例中,对于步骤S102,所述确定所述各词对应的各n元笔画,具体可以包括:根据对语料分词的结果,确定在所述语料中出现至少一次的词;
分别针对所述确定的每个词,执行:
确定该词对应的各n元笔画,该词对应的n元笔画表征该词连续的n个笔画,n为一个正整数或多个不同的正整数。
进一步地,考虑到若某个词在语料中出现的次数太少,则基于该语料训练时对应的训练样本与训练次数也较少,会给训练结果的可信度带来不利影响,因此,可以将这类词筛除,暂不训练。后续可以在其他语料中进行训练。
基于这样的思路,所述根据对语料分词的结果,确定在所述语料中出现至少一次的词,具体可以包括:根据对语料分词的结果,确定在所述语料中出现次数不少于设定次数的词,所述设定次数不小于1次。设定次数具体是多少次可以根据实际情况确定。
在本申请实施例中,对于步骤S104,具体的训练方式可以有多种,比如基于上下文词的训练方式、基于指定近义词或同义词的训练方式等,为了便于理解,以前一种方式为例进行详细介绍。
所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体可以包括:确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;根据所述指定词对应的各n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
本申请对确定相似度的具体方式并不做限定。比如,可以基于向量的夹角余弦运算计算相似度,可以基于向量的平方和运算计算相似度,等等。
所述指定词可以有多个,指定词可以重复而在语料中的位置不同,可以分别针对每个指定词执行上一段中的处理动作。优选地,可以分别将分词后的语料中包含的每个词都作为一个指定词。
在本申请实施例中,步骤S104中的训练可以使得:指定词与上下文词的相似度相对变高(在这里,相似度可以反映关联度,词与其上下文词的关联度相对较高,而且词义相同或相近的各词分别对应的上下文词往往也是相同或相近的),而指定词与非上下文词的相似度相对地变低,非上下文词可以作为下述的负样例词,则上下文词相对地可以作为正样例词。
由此可见,在训练过程中,需要确定一些负样例词作为对照。可以在分词后的语料中随机选择一个或多个词作为负样例词,也可以严格地选择非上下文词作为负样例词。以前一种方式为例,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体可以包括:从所述各词中选择一个或多个词,作为负样例词;确定所述指定词与各所述负样例词的相似度;根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
其中,所述损失表征值用于衡量当前的向量值与训练目标之间的误差程度。所述损失函数的参数可以以上述的几种相似度作为参数,具体的损失函数表达式本申请并不做限定,后面会详细举例说明。
在本申请实施例中,对词向量和笔画向量更新实际上对所述误差程度的修正。当采用神经网络实现本申请的方案时,这种修正可以基于反向传播和梯度下降法实现。在这种情况下,所述梯度即为损失函数对应的梯度。
则所述根据所述损失表征值,对所述指定词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体可以包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
在本申请实施例中,对词向量和笔画向量的训练过程可以是基于分词后的语料中的至少部分词迭代进行的,从而可以使词向量和笔画向量逐渐地收敛,直至完成训练。
以基于分词后的语料中的全部词进行训练为例。对于步骤S104,所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体可以包括:
对分词后的所述语料进行遍历,分别对分词后的所述语料中的每个词执行:
确定该词在分词后的所述语料中的一个或多个上下文词;
分别根据每个所述上下文词,执行:
根据该词对应的各n元笔画的笔画向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;
根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元笔画的笔画向量进行更新。
具体如何进行更新上面已经进行说明,不再赘述。
进一步地,为了便于计算机处理,可以基于窗口实现上面的遍历过程。
例如,所述确定该词在分词后的所述语料中的一个或多个上下文词,具体可以包括:在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;将所述窗口中该词以外的词确定为该词的上下文词。
当然,也可以以分词后的所述语料的第一个词为开始位置,建立一个设定长度的窗口,窗口中包含第一个词以及之后连续的设定数量个词;处理完窗口内的各词后,将窗口向后滑动以处理该语料中的下一批词,直至遍历完该语料。
上面对本申请实施例提供的一种词向量处理方法进行了说明。为了便于理解,基于上述说明,本申请实施例还提供了实际应用场景下,所述词向量处理方法的一种具体实施方案的流程示意图,如图2所示。
图2中的流程主要包括以下步骤:
步骤1,使用分词工具对中文语料进行分词,扫描分词后的中文语料,统计所有出现过的词以建立词汇表,删除出现次数小于b次(也即,上述的设定次数)的词语;跳转步骤2;
步骤2,逐一扫描词汇表,提取每一个词对应的n元笔画,建立n元笔画表,以及词与对应的n元笔画的映射表。其中,将笔画定义为“横”、“竖”、“撇”、“捺”、“折”(笔画“钩”、“点”、“提”等均看作是“折”)共5种,分别用数字1~5表示;跳转步骤3;
步骤3,针对词汇表中每个词语都建立一个维度为d的词向量,对n元笔画表中的每个n元笔画都建立一个维度也为d的笔画向量,随机初始化建立的所有向量;跳转步骤4;
步骤4,从完成分词的中文语料中,从第一个词开始逐一滑动,每次选择一个词作为“当前词w(也即,上述的指定词)”,若w遍历过整个语料所有词,则结束;否则跳转步骤5;
步骤5,以当前词w为中心,向两侧滑动k个词建立窗口,从窗口内的第一个词到最后一个词(除当前词w以外),每次选择一个词作为“上下文词c”,若c遍历过窗口内的所有词,则跳转步骤4;否则,跳转步骤6;
步骤6,对于当前词w,根据步骤2中的词与对应的n元笔画映射表,找到当前词w对应的各n元笔画,按照公式(1)计算当前词w与上下文词c的相似度:
其中,公式中S表示步骤2中建立的n元笔画表,S(w)表示步骤2中映射表里当前词w所对应的n元笔画集合,q表示集合S(w)中的元素(即某个n元笔画)。sim(w,c)表示当前词w与上下文单词c的相似度得分;表示n元笔画q与上下文词语c的向量点积运算;跳转步骤7;
步骤7,随机抽取λ个词作为负样例词,并且按照公式(2)(也即,上述的损失函数)计算损失得分l(w,c),损失得分即可以作为上述的损失表征值:
其中,log是对数函数,c’是随机抽取的负样例词语,而Ec'∈p(V)[x]是指随机抽取的负样例词c’满足概率分布p(V)的情况下,表达式x的期望值,σ(·)是神经网络激励函数,详细参见公式(3):
上述步骤1~7中,步骤6和步骤7是较关键的步骤,为了便于理解,结合图3,对这两步举例说明。
图3为本申请实施例提供的图2中流程所使用的部分语料的相关处理动作示意图。
如图3所示,假定语料中有语句“治理雾霾刻不容缓”,分词得到该语句中的三个词语“治理”、“雾霾”、“刻不容缓”。
假定此时选定“雾霾”为当前词w,选定“治理”为上下文词c,提取当前词w映射的所有n元笔画S(w),比如,“雾霾”映射的3元笔画包括“145”“452”“524”等。然后,根据公式(1)、公式(2)和公式(3)计算损失得分l(w,c),进而计算梯度,以更新c的词向量和w对应的所有的笔画向量。
上面为本申请实施例提供的一种词向量处理方法,基于同样的发明思路,本申请实施例还提供了对应的装置,如图4所示。
图4为本申请实施例提供的对应于图1的一种词向量处理装置的结构示意图,该装置可以位于图1中流程的执行主体,包括:
分词模块401,对语料分词得到各词;
确定模块402,确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;
初始化模块403,建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;
训练模块404,根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
可选地,所述确定模块402确定所述各词对应的各n元笔画,具体包括:
所述确定模块402根据对语料分词的结果,确定在所述语料中出现至少一次的词;
分别针对所述确定的每个词,执行:
确定该词对应的各n元笔画,该词对应的n元笔画表征该词连续的n个笔画,n为一个正整数或多个不同的正整数。
可选地,所述确定模块402根据对语料分词的结果,确定在所述语料中出现至少一次的词,具体包括:
所述确定模块402根据对语料分词的结果,确定在所述语料中出现次数不少于设定次数的词,所述设定次数不小于1次。
可选地,所述初始化模块403初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,具体包括:
所述初始化模块403采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,其中,相同n元笔画的笔画向量也相同。
可选地,所述训练模块404根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:
所述训练模块404确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;
根据所述指定词对应的各n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;
根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
可选地,所述训练模块404根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:
所述训练模块404从所述各词中选择一个或多个词,作为负样例词;
确定所述指定词与各所述负样例词的相似度;
根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
可选地,所述训练模块404根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:
所述训练模块404根据所述损失表征值,确定所述损失函数对应的梯度;
根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。
可选地,所述训练模块404从所述各词中选择一个或多个词,作为负样例词,具体包括:
所述训练模块404从所述各词中随机选择一个或多个词,作为负样例词。
可选地,所述训练模块404根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:
所述训练模块404对分词后的所述语料进行遍历,分别对分词后的所述语料中的每个词执行:
确定该词在分词后的所述语料中的一个或多个上下文词;
分别根据每个所述上下文词,执行:
根据该词对应的各n元笔画的笔画向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;
根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元笔画的笔画向量进行更新。
可选地,所述训练模块404确定该词在分词后的所述语料中的一个或多个上下文词,具体包括:
所述训练模块404在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;
将所述窗口中该词以外的词确定为该词的上下文词。
可选地,所述词为中文词,所述词向量为中文词的词向量。
本申请实施例提供的装置与方法是一一对应的,因此,装置也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (30)
1.一种词向量处理方法,包括:
针对在语料中至少出现过一次的词,确定所述词的词向量;其中,所述词包括中文词或者日文词,所述词向量包括中文词的词向量或者日文词的词向量;
确定所述词的各个n元笔画的笔画向量;所述n元笔画表征所述词的连续n个笔画;其中,n为一个正整数或多个不同的正整数;
根据分词后的所述语料、所述词向量以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
2.如权利要求1所述的方法,所述词为在所述语料中出现次数不少于设定次数的词;所述确定所述词的词向量之前,还包括:
对所述语料进行分词处理,得到对所述语料分词的结果;
根据对所述语料分词的结果,确定在所述语料中出现次数不少于所述设定次数的词,所述设定次数不小于1次。
3.如权利要求1所述的方法,所述确定所述词的各个n元笔画的笔画向量之前,还包括:
确定所述词对应的各n元笔画。
4.如权利要求1所述的方法,所述确定所述词的词向量,具体包括:
建立并初始化所述词的词向量。
5.如权利要求4所述的方法,所述初始化所述词的词向量,具体包括:
采用随机初始化的方式,初始化所述词的词向量;或者,
按照指定概率分布初始化的方式,初始化所述词的词向量。
6.如权利要求1所述的方法,所述确定所述词的词向量,具体包括:
获取所述词的词向量,所述词向量是基于其他语料对所述词的初始词向量训练后得到的向量。
7.如权利要求1所述的方法,所述确定所述词的各个n元笔画的笔画向量,具体包括:
建立并初始化所述词的各个n元笔画的笔画向量。
8.如权利要求7所述的方法,所述初始化所述词的各个n元笔画的笔画向量,具体包括:
采用随机初始化的方式,初始化所述词的各个n元笔画的笔画向量;或者,
按照指定概率分布初始化的方式,初始化所述词的各个n元笔画的笔画向量;
其中,相同的所述n元笔画的笔画向量相同。
9.如权利要求1所述的方法,所述确定所述词的各个n元笔画的笔画向量,具体包括:
获取所述词的各个n元笔画的笔画向量,所述笔画向量是基于其他语料对所述词的各个n元笔画的初始笔画向量训练后得到的向量。
10.如权利要求1所述的方法,所述根据分词后的所述语料、所述词向量以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:
针对分词后的所述语料中的指定词,确定所述指定词在分词后的所述语料中的上下文词;
根据所述指定词的各个n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;
根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
11.如权利要求10所述的方法,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新,具体包括:
从分词后的所述语料中选择一个或多个词,作为负样例词;
确定所述指定词与各个所述负样例词的相似度;
根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各个所述负样例词的相似度,确定所述指定词对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
12.如权利要求11所述的方法,所述根据所述损失表征值,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新,具体包括:
根据所述损失表征值,确定所述损失函数对应的梯度;
根据所述梯度,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
13.如权利要求11所述的方法,所述从分词后的所述语料中选择一个或多个词,作为负样例词,具体包括:
从分词后的所述语料中随机选择一个或多个词,作为负样例词。
14.如权利要求1所述的方法,所述根据分词后的所述语料、所述词向量以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:
针对每个所述词执行:
确定所述词在分词后的所述语料中的一个或多个上下文词;
根据每个所述上下文词,执行:
根据所述词的各个n元笔画的笔画向量以及所述上下文词的词向量,确定所述词与所述上下文词的相似度;
根据所述词与所述上下文词的相似度,对所述上下文词的词向量和所述词的各个n元笔画的笔画向量进行更新。
15.如权利要求14所述的方法,所述确定所述词在分词后的所述语料中的一个或多个上下文词,具体包括:
在分词后的所述语料中,通过以所述词为中心,向左滑动指定数量个词的距离,建立窗口;或者,
在分词后的所述语料中,通过以所述词为中心,向右滑动指定数量个词的距离,建立窗口;或者,
在分词后的所述语料中,通过以所述词为中心,向左右滑动指定数量个词的距离,建立窗口;
将所述窗口中所述词以外的词确定为所述词的上下文词。
16.一种词向量处理装置,包括:
词向量确定模块,用于针对在语料中至少出现过一次的词,确定所述词的词向量;其中,所述词包括中文词或者日文词,所述词向量包括中文词的词向量或者日文词的词向量;
笔画向量确定模块,用于确定所述词的各个n元笔画的笔画向量;所述n元笔画表征所述词的连续n个笔画;其中,n为一个正整数或多个不同的正整数;
训练模块,用于根据分词后的所述语料、所述词向量以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
17.如权利要求16所述的装置,所述词为在所述语料中出现次数不少于设定次数的词;所述装置还包括:
分词模块,用于对所述语料进行分词处理,得到对所述语料分词的结果;
确定模块,用于根据对所述语料分词的结果,确定在所述语料中出现次数不少于所述设定次数的词,所述设定次数不小于1次。
18.如权利要求16所述的装置,还包括:
确定模块,用于确定所述词对应的各n元笔画。
19.如权利要求16所述的装置,所述词向量确定模块,具体用于:
建立并初始化所述词的词向量。
20.如权利要求19所述的装置,所述词向量确定模块,具体用于:
采用随机初始化的方式,初始化所述词的词向量;或者,
按照指定概率分布初始化的方式,初始化所述词的词向量。
21.如权利要求16所述的装置,所述词向量确定模块,具体用于:
获取所述词的词向量,所述词向量是基于其他语料对所述词的初始词向量训练后得到的向量。
22.如权利要求16所述的装置,所述笔画向量确定模块,具体用于:
建立并初始化所述词的各个n元笔画的笔画向量。
23.如权利要求22所述的装置,所述笔画向量确定模块,具体用于:
采用随机初始化的方式,初始化所述词的各个n元笔画的笔画向量;或者,
按照指定概率分布初始化的方式,初始化所述词的各个n元笔画的笔画向量;
其中,相同的所述n元笔画的笔画向量相同。
24.如权利要求16所述的装置,所述笔画向量确定模块,具体用于:
获取所述词的各个n元笔画的笔画向量,所述笔画向量是基于其他语料对所述词的各个n元笔画的初始笔画向量训练后得到的向量。
25.如权利要求16所述的装置,所述训练模块,具体用于:
针对分词后的所述语料中的指定词,确定所述指定词在分词后的所述语料中的上下文词;
根据所述指定词的各个n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;
根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
26.如权利要求25所述的装置,所述训练模块根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词的n元笔画的笔画向量进行更新,具体包括:
从分词后的所述语料中选择一个或多个词,作为负样例词;
确定所述指定词与各个所述负样例词的相似度;
根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各个所述负样例词的相似度,确定所述指定词对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
27.如权利要求26所述的装置,所述训练模块根据所述损失表征值,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新,具体包括:
根据所述损失表征值,确定所述损失函数对应的梯度;
根据所述梯度,对所述上下文词的词向量和所述指定词的各个n元笔画的笔画向量进行更新。
28.如权利要求26所述的装置,所述训练模块从分词后的所述语料中选择一个或多个词,作为负样例词,具体包括:
从所述分词后的所述语料中随机选择一个或多个词,作为负样例词。
29.如权利要求16所述的装置,所述训练模块,具体用于:
针对每个所述词执行:
确定所述词在分词后的所述语料中的一个或多个上下文词;
根据每个所述上下文词,执行:
根据所述词的各个n元笔画的笔画向量以及所述上下文词的词向量,确定所述词与所述上下文词的相似度;
根据所述词与所述上下文词的相似度,对所述上下文词的词向量和所述词的各个n元笔画的笔画向量进行更新。
30.如权利要求29所述的装置,所述训练模块确定所述词在分词后的所述语料中的一个或多个上下文词,具体包括:
在分词后的所述语料中,通过以所述词为中心,向左滑动指定数量个词的距离,建立窗口;或者,
在分词后的所述语料中,通过以所述词为中心,向右滑动指定数量个词的距离,建立窗口;或者,
在分词后的所述语料中,通过以所述词为中心,向左右滑动指定数量个词的距离,建立窗口;
将所述窗口中所述词以外的词确定为所述词的上下文词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459596.7A CN111611798B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459596.7A CN111611798B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
CN201710045459.7A CN108345580B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710045459.7A Division CN108345580B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611798A CN111611798A (zh) | 2020-09-01 |
CN111611798B true CN111611798B (zh) | 2023-05-16 |
Family
ID=62906491
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710045459.7A Active CN108345580B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
CN202010459596.7A Active CN111611798B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710045459.7A Active CN108345580B (zh) | 2017-01-22 | 2017-01-22 | 一种词向量处理方法及装置 |
Country Status (9)
Country | Link |
---|---|
US (2) | US10430518B2 (zh) |
EP (1) | EP3559823A1 (zh) |
JP (1) | JP6742653B2 (zh) |
KR (1) | KR102117799B1 (zh) |
CN (2) | CN108345580B (zh) |
PH (1) | PH12019501675A1 (zh) |
SG (1) | SG11201906524TA (zh) |
TW (1) | TWI685761B (zh) |
WO (1) | WO2018136870A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345580B (zh) | 2017-01-22 | 2020-05-15 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN109271622B (zh) * | 2018-08-08 | 2021-05-14 | 山西大学 | 一种基于频次分布校正的低维词表征学习方法 |
CN110929508B (zh) * | 2018-09-20 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 词向量的生成方法、装置和系统 |
CN110956034B (zh) * | 2018-09-21 | 2023-04-11 | 阿里巴巴集团控股有限公司 | 词语的获取方法及装置、商品搜索方法 |
CN111274793B (zh) * | 2018-11-19 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种文本处理方法、装置以及计算设备 |
CN110059155A (zh) * | 2018-12-18 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 文本相似度的计算、智能客服系统的实现方法和装置 |
CN111353016B (zh) * | 2018-12-24 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 文本处理方法及装置 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109933686B (zh) * | 2019-03-18 | 2023-02-03 | 创新先进技术有限公司 | 歌曲标签预测方法、装置、服务器及存储介质 |
CN110222144B (zh) * | 2019-04-17 | 2023-03-28 | 深圳壹账通智能科技有限公司 | 文本内容提取方法、装置、电子设备及存储介质 |
CA3061432A1 (en) | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN110334196B (zh) * | 2019-06-28 | 2023-06-27 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
US10909317B2 (en) * | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
CN110619120B (zh) * | 2019-08-12 | 2021-03-02 | 北京航空航天大学 | 语言模型的训练方法及装置 |
CN112487821A (zh) * | 2019-08-22 | 2021-03-12 | 中兴通讯股份有限公司 | 语料向量化处理方法、装置、计算机设备及存储介质 |
CN110765230B (zh) * | 2019-09-03 | 2022-08-09 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
CN111221960A (zh) * | 2019-10-28 | 2020-06-02 | 支付宝(杭州)信息技术有限公司 | 文本检测方法、相似度计算方法、模型训练方法及装置 |
US11151982B2 (en) | 2020-03-23 | 2021-10-19 | Sorcero, Inc. | Cross-context natural language model generation |
JP7416665B2 (ja) * | 2020-06-12 | 2024-01-17 | 株式会社日立製作所 | 対話システム、及び対話システムの制御方法 |
EP4044503A1 (en) * | 2021-02-10 | 2022-08-17 | AO Kaspersky Lab | System and method for creating heuristic rules to detect fraudulent emails classified as business email compromise attacks |
RU2763921C1 (ru) * | 2021-02-10 | 2022-01-11 | Акционерное общество "Лаборатория Касперского" | Система и способ создания эвристических правил для обнаружения мошеннических писем, относящихся к категории ВЕС-атак |
CN114997162B (zh) * | 2022-05-26 | 2024-06-14 | 中国工商银行股份有限公司 | 一种训练数据提取方法和装置 |
TWI827409B (zh) * | 2022-12-20 | 2023-12-21 | 綺源碼有限公司 | 自動化組織值域映射方法、電子裝置及電腦可讀媒介 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449640A (zh) * | 2009-03-30 | 2012-05-09 | 辛纳普蒂克斯公司 | 识别手写单词 |
CN102750556A (zh) * | 2012-06-01 | 2012-10-24 | 山东大学 | 一种脱机手写体汉字识别方法 |
CN103164865A (zh) * | 2011-12-12 | 2013-06-19 | 北京三星通信技术研究有限公司 | 一种对手写输入进行美化的方法和装置 |
CN103390358A (zh) * | 2013-07-03 | 2013-11-13 | 广东小天才科技有限公司 | 对电子设备的字符书写操作进行规范性判断的方法及装置 |
CN105183844A (zh) * | 2015-09-06 | 2015-12-23 | 国家基础地理信息中心 | 一种基础地理信息数据中生僻字库实现方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5577135A (en) * | 1994-03-01 | 1996-11-19 | Apple Computer, Inc. | Handwriting signal processing front-end for handwriting recognizers |
CN1061449C (zh) | 1997-11-26 | 2001-01-31 | 张立龙 | 一种四倍键盘 |
CN1187677C (zh) * | 2002-03-18 | 2005-02-02 | 郑方 | 计算机整句汉字局部笔划输入方法 |
CN1203389C (zh) * | 2002-05-24 | 2005-05-25 | 郑方 | 计算机整句汉字起始四笔划输入方法 |
US8392446B2 (en) | 2007-05-31 | 2013-03-05 | Yahoo! Inc. | System and method for providing vector terms related to a search query |
CN101593270B (zh) * | 2008-05-29 | 2012-01-25 | 汉王科技股份有限公司 | 一种手绘形状识别的方法及装置 |
US8909514B2 (en) * | 2009-12-15 | 2014-12-09 | Microsoft Corporation | Unsupervised learning using global features, including for log-linear model word segmentation |
KR101252397B1 (ko) | 2011-06-02 | 2013-04-08 | 포항공과대학교 산학협력단 | 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 |
CN103970798B (zh) * | 2013-02-04 | 2019-05-28 | 商业对象软件有限公司 | 数据的搜索和匹配 |
WO2015145981A1 (ja) | 2014-03-28 | 2015-10-01 | 日本電気株式会社 | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 |
US9524440B2 (en) | 2014-04-04 | 2016-12-20 | Myscript | System and method for superimposed handwriting recognition technology |
CN103971097B (zh) * | 2014-05-15 | 2015-05-13 | 武汉睿智视讯科技有限公司 | 一种基于多尺度笔画模型的车牌识别方法与系统 |
KR102396250B1 (ko) | 2015-07-31 | 2022-05-09 | 삼성전자주식회사 | 대역 어휘 결정 장치 및 방법 |
US10387464B2 (en) * | 2015-08-25 | 2019-08-20 | Facebook, Inc. | Predicting labels using a deep-learning model |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN105488031B (zh) * | 2015-12-09 | 2018-10-19 | 北京奇虎科技有限公司 | 一种检测相似短信的方法及装置 |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
CN105678339B (zh) * | 2016-01-15 | 2018-10-02 | 合肥工业大学 | 一种具有仿反馈调整机制的脱机手写体汉字认知方法 |
CN105740349B (zh) * | 2016-01-25 | 2019-03-08 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105786782B (zh) * | 2016-03-25 | 2018-10-19 | 北京搜狗信息服务有限公司 | 一种词向量的训练方法和装置 |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
US9594741B1 (en) * | 2016-06-12 | 2017-03-14 | Apple Inc. | Learning new words |
CN106295796B (zh) * | 2016-07-22 | 2018-12-25 | 浙江大学 | 基于深度学习的实体链接方法 |
CN108345580B (zh) | 2017-01-22 | 2020-05-15 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
-
2017
- 2017-01-22 CN CN201710045459.7A patent/CN108345580B/zh active Active
- 2017-01-22 CN CN202010459596.7A patent/CN111611798B/zh active Active
- 2017-11-10 TW TW106138932A patent/TWI685761B/zh active
-
2018
- 2018-01-18 US US15/874,725 patent/US10430518B2/en active Active
- 2018-01-22 KR KR1020197021351A patent/KR102117799B1/ko active IP Right Grant
- 2018-01-22 JP JP2019539241A patent/JP6742653B2/ja active Active
- 2018-01-22 EP EP18702885.7A patent/EP3559823A1/en not_active Withdrawn
- 2018-01-22 SG SG11201906524TA patent/SG11201906524TA/en unknown
- 2018-01-22 WO PCT/US2018/014680 patent/WO2018136870A1/en unknown
-
2019
- 2019-07-19 PH PH12019501675A patent/PH12019501675A1/en unknown
- 2019-09-30 US US16/587,676 patent/US10878199B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449640A (zh) * | 2009-03-30 | 2012-05-09 | 辛纳普蒂克斯公司 | 识别手写单词 |
CN103164865A (zh) * | 2011-12-12 | 2013-06-19 | 北京三星通信技术研究有限公司 | 一种对手写输入进行美化的方法和装置 |
CN102750556A (zh) * | 2012-06-01 | 2012-10-24 | 山东大学 | 一种脱机手写体汉字识别方法 |
CN103390358A (zh) * | 2013-07-03 | 2013-11-13 | 广东小天才科技有限公司 | 对电子设备的字符书写操作进行规范性判断的方法及装置 |
CN105183844A (zh) * | 2015-09-06 | 2015-12-23 | 国家基础地理信息中心 | 一种基础地理信息数据中生僻字库实现方法 |
Non-Patent Citations (1)
Title |
---|
Component-Enhanced Chinese Character Embeddings;YANRAN LI 等;《EMNLP》;829-834 * |
Also Published As
Publication number | Publication date |
---|---|
US10430518B2 (en) | 2019-10-01 |
CN108345580B (zh) | 2020-05-15 |
TW201828105A (zh) | 2018-08-01 |
JP2020507155A (ja) | 2020-03-05 |
US20200134262A1 (en) | 2020-04-30 |
KR102117799B1 (ko) | 2020-06-02 |
US10878199B2 (en) | 2020-12-29 |
TWI685761B (zh) | 2020-02-21 |
WO2018136870A1 (en) | 2018-07-26 |
PH12019501675A1 (en) | 2020-03-02 |
KR20190107033A (ko) | 2019-09-18 |
EP3559823A1 (en) | 2019-10-30 |
CN111611798A (zh) | 2020-09-01 |
US20180210876A1 (en) | 2018-07-26 |
JP6742653B2 (ja) | 2020-08-19 |
CN108345580A (zh) | 2018-07-31 |
SG11201906524TA (en) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611798B (zh) | 一种词向量处理方法及装置 | |
CN108170667B (zh) | 词向量处理方法、装置以及设备 | |
CN108874765B (zh) | 词向量处理方法及装置 | |
US11030411B2 (en) | Methods, apparatuses, and devices for generating word vectors | |
CN107957989B (zh) | 基于集群的词向量处理方法、装置以及设备 | |
CN107423269B (zh) | 词向量处理方法及装置 | |
US10824819B2 (en) | Generating word vectors by recurrent neural networks based on n-ary characters | |
CN107247704B (zh) | 词向量处理方法、装置以及电子设备 | |
US10846483B2 (en) | Method, device, and apparatus for word vector processing based on clusters | |
CN108664141B (zh) | 具有文档上下文自学习功能的输入法 | |
TWI705378B (zh) | 針對rpc資訊的向量處理方法、裝置以及設備 | |
CN107562715B (zh) | 词向量处理方法、装置以及电子设备 | |
CN107577658B (zh) | 词向量处理方法、装置以及电子设备 | |
CN107562716A (zh) | 词向量处理方法、装置以及电子设备 | |
CN111091001B (zh) | 一种词语的词向量的生成方法、装置及设备 | |
CN107844472B (zh) | 词向量处理方法、装置以及电子设备 | |
CN115130621A (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN107577659A (zh) | 词向量处理方法、装置以及电子设备 | |
CN111539520A (zh) | 增强深度学习模型鲁棒性的方法及装置 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN112115952B (zh) | 一种基于全卷积神经网络的图像分类方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |