CN112507866B - 一种汉字字向量生成方法、装置、计算机设备及存储介质 - Google Patents

一种汉字字向量生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112507866B
CN112507866B CN202011415045.7A CN202011415045A CN112507866B CN 112507866 B CN112507866 B CN 112507866B CN 202011415045 A CN202011415045 A CN 202011415045A CN 112507866 B CN112507866 B CN 112507866B
Authority
CN
China
Prior art keywords
chinese character
target
vector
chinese
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011415045.7A
Other languages
English (en)
Other versions
CN112507866A (zh
Inventor
王伟
黄勇其
于翠翠
张黔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202011415045.7A priority Critical patent/CN112507866B/zh
Publication of CN112507866A publication Critical patent/CN112507866A/zh
Application granted granted Critical
Publication of CN112507866B publication Critical patent/CN112507866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汉字字向量生成方法、装置、计算机设备及存储介质,该方法包括:获取包含多个汉字的训练样本,将每一汉字按照九宫格的方式进行划分,并计算每一汉字在每一网格中的交并比,得到初始向量;根据每一汉字的造字类型对初始向量赋予权重,得到初始几何特征向量;根据每一汉字的笔划顺序对初始几何特征向量中的同维度数值进行排列,得到目标几何特征向量;根据在训练样本中的出现频率以及词性重要度设置对应的目标ID;从训练样本中选择目标汉字,将目标汉字的目标几何特征向量和相邻的若干汉字的目标ID分别结合作为样本数据;将样本数据输入到神经网络模型中进行训练学习,得到目标汉字的字向量。本发明可提高汉字字向量的生成精度。

Description

一种汉字字向量生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种汉字字向量生成方法、装置、计算机设备及存储介质。
背景技术
将汉字或词转化为向量表达形式,再将向量输入到各类神经网络中,完成各种具体任务(例如文本分类、文本摘要、文本生成、智能问答等)已成为当前自然语言处理领域主流的技术手段。
但早期将词映射成为词向量的实践基于字母文字,一个词中,字母符号之间本身关联性很小,只能在词之间体现语义关联。而汉字与字母文字之间存在很大的差异,尤其体现在单个汉字的偏旁和部首也可以表达语义,而字母文字中的单个字符只能表音。对于一些现有技术,由于未考虑偏旁部首之间隐含的信息,因此最终得到的词向量在中文任务上的效果不如其在字母文字上的表现。
目前生成词向量的方式大体上可分为两大类。第一类是利用神经网络生成,例如word2vec(一种用于产生词向量的模型)、glove(一种词向量学习方法)等,直接为每个单词或汉字分配其在整个训练语料大词典中的ID,然后以这些ID为输入,通过负采样方法训练得到神经网络的权重,权重即为词向量。第二类是考虑汉字的部首等信息,为所有可能形成汉字的部首分配ID,将各种能形成汉字的部首ID进行排列组合,产生不同序列,再以这些序列作为神经网络的输入,训练得到词向量。
但是以上方法还存在不足,例如只考虑词本身的特征,且设计的特征比较简单,又例如未能从更高层次考虑词之间的语义关联等,从而导致最终生成的字向量精度不足。
发明内容
本发明实施例提供了一种汉字字向量生成方法、装置、计算机设备及存储介质,旨在提高汉字字向量的生成精度。
第一方面,本发明实施例提供了一种汉字字向量生成方法,包括:
获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
第二方面,本发明实施例提供了一种汉字字向量生成装置,包括:
划分单元,用于获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
权重赋予单元,用于根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
向量排列单元,用于根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
设置单元,用于根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
结合单元,用于从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
训练学习单元,用于将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的汉字字向量生成方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的汉字字向量生成方法。
本发明实施例提供了一种汉字字向量生成方法、装置、计算机设备及存储介质,所述方法包括:获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。本发明实施例通过更细致粒度地考虑汉字形状蕴含的信息,提取更多隐含信息,使得生成的汉字字向量更加精准,从而在语言处理下游任务中能够具有更好的表现。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种汉字字向量生成方法的流程示意图;
图2为本发明实施例提供的一种汉字字向量生成方法中步骤S101的子流程示意图;
图3为本发明实施例提供的一种汉字字向量生成方法中步骤S104的子流程示意图;
图4为本发明实施例提供的一种汉字字向量生成方法中步骤S106的子流程示意图;
图5为本发明实施例提供的一种汉字字向量生成装置的示意性框图;
图6为本发明实施例提供的一种汉字字向量生成装置中划分单元501的子示意性框图;
图7为本发明实施例提供的一种汉字字向量生成装置中设置单元504的子示意性框图;
图8为本发明实施例提供的一种汉字字向量生成装置中训练学习单元506的子示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种汉字字向量生成方法的流程示意图,具体包括:步骤S101~S106。
S101、获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
S102、根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
S103、根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
S104、根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
S105、从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
S106、将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
本实施例中,首先将所述训练样本的每一所述汉字根据等距分割的原则划分九宫格的形式,使每一所述汉字可以均匀分布于所述九宫格内。可以理解的是,对于一些复杂的汉字而言,在等距分割时可以占据所述九宫格内的每一网格,例如汉字“智”等。而对于一些比较简单的汉字而言,在等距分割时只能占据所述九宫格的部分网格,例如汉字“一”等。然后根据每一所述汉字在所述九宫格中的每一网格的交并比得到每一所述汉字的初始向量,再根据每一汉字在所述训练样本中的造字类型确定每一所述汉字的初始几何特征向量,接着根据每一所述汉字的笔划顺序得到每一所述汉字的目标几何特征向量,然后将每一所述汉字的目标几何特征向量与所述训练样本中的其他汉字的目标ID相结合以得到每一所述汉字的样本数据,利用所述神经网络模型对每一所述汉字的样本数据进行训练学习即可得到每一所述汉字的字向量。
相比于现有技术,本实施例更细致粒度考虑了汉字形状蕴含的信息,并提取更多隐含信息用于生成字向量,从而使最终生成的字向量更加准确可靠,以及使最终生成的字向量在语言处理下游任务中可以具有更好的表现。
在一实施例中,如图2所示,所述步骤S101包括:步骤S201~S204。
S201、根据等距分割原则将每一所述汉字按照九宫格的方式进行划分;
S202、针对每一所述汉字,计算对应所述九宫格的每一网格中所述汉字所占像素与对应所述九宫格中所述汉字的总像素的比例,将计算得到的比例作为每一所述汉字在对应所述九宫格的每一网格中的交并比,并将所述交并比与预设阈值进行比较;
S203、若所述交并比大于或者等于所述预设阈值,则保留对应网格中的交并比;
S204、若所述交并比小于所述预设阈值,则将对应网格中的交并比重置为0;
S205、将所述九宫格中的每一网格中的交并比依次进行拼接,得到每一所述汉字的初始向量。
本实施例中,对于每一个汉字而言,其在九宫格中的每一网格占据的像素比例可能各不相同,所述交并比(IOU,Intersection overUnion)即是指所述汉字在每一网格中的像素与所述汉字在九宫格总像素的比例。通过将所述汉字在所述九宫格中的每一网格中的的交并比与预设阈值(即预设的交并比阈值)进行比较,并根据比较结果确定是保留相应的交并比还是重置相应的交并比,然后在保留或者重置后将所述九宫格内的每一网格的交并比进行拼接,便可得到每一所述汉字的初始向量,且每一所述汉字的初始向量均为9维初始向量。例如,对于汉字“智”,预设阈值为0.1,按照先从左至右、再从上至下的顺序,所述九宫格中的第一网格中的汉字的交并比为0.15,大于预设阈值0.1,那么第一网格中的交并比即为0.15,以此类推,对所述九宫格中的每一网格的交并比进行集合后,得到“智”的初始向量[0.15,0.23,0,0,…,0.31]。
在一实施例中,所述步骤S102包括:
对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量。
汉字具有六种造字类型,即象形、指事、形声、会意、转注、假借。根据汉字所属的造字类型为该汉字赋予权重,可以得到该汉字的几何特征向量。本实施例通过统计所述训练样本中每一所述汉字所属的造字类型,并对统计的造字类型出现频率进行排序,从而可以按照次序为不同造字类型赋予不同的权重,进而将造字类型的权重赋予对应的汉字的初始向量,即可得到对应的汉字的初始特征向量。
例如,汉字“智”,其为形声字,并假设“智”的初始向量为[0.15,0.23,0,0,…,0.31],形声字在所述训练样本中的权重为0.3,因此对“智”的初始向量赋予权重0.3,得到初始几何特征向量,即[0.15*0.3,0.23*0.3,…,0.11*0.3]。
当然,在其他实施例中,还可以采用其他方式对每一所述汉字的初始向量赋予权重。
在一实施例中,所述步骤S103包括:
针对每一所述汉字,获取对应所述汉字的笔划顺序,并统计每一笔划跨越的网格;
将每一笔划跨越的网格依次进行排序得到所述汉字的笔划序列,然后将所述笔划序列中各元素对应的初始几何特征向量中的同维度数值,按照所述所述笔划序列中各元素的位次进行排列,得到所述汉字对应的目标几何特征向量。
本实施例中,可以根据预先构建的汉字笔划顺序表获取每一所述汉字的笔划顺序,并将每一笔划在所述九宫格中跨越的网格排序形成每一所述汉字的笔划序列。在具体应用过程中,可以先对九宫格的网格进行ID分配,如按照先从左到右、再从上到下的顺序分别分配:1、2、3、4、5、6、7、8、9共9个网格ID。那么对于汉字“智”字,按照笔划顺序,其第一个笔划为“丿”,对于“丿”这一笔划跨越的网格ID为[1],其第二笔划为“—”,这一笔划跨越的网格ID为[1,2],后面依次类推,这样得到“智”的所有笔划所跨越的网格ID依次为{[1],[1,2],[4,5],[1,2,4],[5],[2,5],[2,3],[3,6],[5,6],[4,7],[4,5,6],[6,9],[7,8,9],[7,8],9},形成的笔划序列为{1,1,2,4,5,1,2,4,5,2,5,2,3,3,6,5,6,4,7,4,5,6,6,9,7,8,9,7,8,9}。所述笔划序列中元素即为所述九宫格的网格ID,使每个网格ID对应的初始几何特征向量中的同维度数值,例如网格ID为1对应的初始几何特征向量中的同维度数值即为0.15*0.3,网格ID为9对应的初始几何特征量中的同维度数值即为0.11*0.3,按照所述笔划序列中所有元素的位次对所述初始几何特征向量中的同维度数值进行排列,即可得到所述目标几何特征向量。例如上述汉字“智”,假设其初始几何特征向量为[A,B,C,D,E,F,G,H,I],那么其目标几何特征向量为[A,A,B,D,E,A,B,D,E,B,E,B,C,C,F,E,F,D,G,D,E,F,F,I,G,H,I,G,H,I]。
在一实施例中,如图3所示,所述步骤S104包括:步骤S301~S304。
S301、对每一所述汉字在所述训练样本中的出现频率进行统计,并进行排列,然后根据排列后的结果为每一所述汉字分配初始ID;
S302、针对每一所述汉字,利用最大熵方法识别每一所述汉字在所述训练样本中对应的词性,并将每一所述汉字的词性在所述训练样本中的出现频率进行排序,然后根据出现频率最高的词性为每一所述汉字赋予赋予词性重要度;
S303、将每一所述汉字的初始ID和对应的词性重要度进行相加,得到每一所述汉字的训练ID;
S304、对每一所述汉字的训练ID进行归一化处理,得到每一所述汉字的目标ID。
本实施例中,首先统计每一所述汉字在所述训练样本中出现的频率,并进行排列,例如按照升序或者降序的方式进行排列,形成根据汉字出现频率排列的队列,然后按照该队列为每一所述汉字依次分配初始ID,即每一所述汉字在该队列中的位序索引x。然后利用最大熵方法识别所述训练样本中每一所述汉字的所有词性,例如对于汉字“干”,其既有形容词的词性,也有动词的词性。按照每一所述汉字的每种词性的出现频率,从低到高对所有词性进行排序,并为出现频率最高的词性赋予重要度,作为对应汉字的词性重要度。在一具体实施例中,根据词性标注规范定义33种词性,并为33种词性分配1~33的重要度。
再将每一所述汉字的初始ID和词性重要度相加,即可得到对应汉字最终用于训练字向量的训练ID。同时,考虑到汉字的ID数值相较于初始几何特征向量的数值过大,因此本实施例中对汉字的训练ID进行归一化处理,从而得到,唯一所述汉字最终用于生成字向量的归一化ID,即所述目标ID。
在一实施例中,所述步骤S105包括:
随机选择所述训练样本中的一个汉字作为目标汉字;
将所述目标汉字的目标几何特征向量依次与其最相邻的若干汉字的目标ID进行向量拼接,得到所述目标汉字的样本数据。
本实施例中,对于所述训练样本中的每一所述汉字,若其为目标汉字,则可以根据所述目标汉字在其所在句子中的位置选择临近的汉字构成所述目标汉字的样本数据。具体而言,当选定目标汉字后,根据实际情况选择所述目标汉字相邻的若干个汉字,例如所述目标汉字左边最近第1,2,...,i个汉字以及所述目标汉字右边最近第1,2,...,i个汉字。
按照(目标汉字的目标几何特征向量:左边最近第一个汉字的目标ID)、(目标汉字的目标几何特征向量:右边最近第一个汉字的目标ID)、(目标汉字的目标几何特征向量:左边最近第2个汉字的归一化ID)、(目标汉字的目标几何特征向量:右边最近第2个汉字的归一化ID)、以此类推,最终生成所述目标汉字的样本数据。其中,“:”表示向量的拼接。需要说明的是,在语料中,左右相邻或者说越靠近目标汉字的汉字和目标汉字之间具有某种语义上的联系,越近联系越紧密,因此通过本实施例的样本数据构建方法可以使得样本数据更加准确可靠,从而更加支持后续操作。
举例来说,若所述训练样本中存在句子“目标汉字生成字向量”,共包含汉字“目、标、汉、字、生、成、字、向、量”,假设每一汉字在目标ID分别为5073,2018,4049、4408、3345、1208、2204、4497、5086。当所述目标汉字为“生”,并使其样本数据包含相邻的4个汉字,那么其样本数据为:[目标ID为3345的汉字的目标几何特征向量:“字”的目标ID4408]、[目标ID为3345的汉字的目标几何特征向量:“成”的目标ID1208]、[目标ID为3345的汉字的目标几何特征向量:“汉”的目标ID4049]、[ID为3345的目标汉字几何特征向量:“字”的目标ID2204]。
在一实施例中,如图4所示,所述步骤S106包括:步骤S401~S403。
S401、将所述目标汉字的样本数据输入至所述神经网络模型的输入层中,并由所述输入层输出所述目标汉字的样本数据对应的特征向量;
S402、利用所述神经网络模型的隐藏层对所述特征向量进行求和处理和平均处理,得到中间层向量;
S403、利用所述神经网络模型网络的输出层所述所述中间层向量进行归一化处理,得到所述目标汉字的样本数据对应的概率值,将所述概率值作为所述目标汉字的字向量。
本实施例中,利用所述神经网络模型对每一所述汉字的样本数据进行训练即可生成每一所述汉字的字向量。例如通过连续词袋模型(CBOW)对每一所述汉字的样本数据进行训练,使每一所述汉字的样本数据依次经过输入层、隐藏层和输出层的训练,从而最终生成每一所述汉字的字向量。
进一步的,在生成所述汉字的字向量后,将所述汉字的字向量输入至对应的神经网络中并获得对应的隐含向量,再对该隐含向量进行相应操作以达到相应的目的。举例来说,当需要进行文本分类时,获取文本分类对应的段落或者句子,通过本实施例提供的汉字字向量生成方法得到文本分类中的汉字字向量,然后将该汉字字向量输入至双向LSTM网络模型或Transformer等编码模型中,并由该模型输出该汉字字向量对应的隐含向量,再通过softmax函数对该隐含向量进行分类,从而达到文本分类的目的。通过本实施例提供的汉字字向量生成方法可以获得更加丰富的语义表示,进而使最终的文本分类结果更加准确。
图5为本发明实施例提供的一种汉字字向量生成装置500的示意性框图,该装置500包括:
划分单元501,用于获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
权重赋予单元502,用于根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
向量排列单元503,用于根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
设置单元504,用于根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
结合单元505,用于从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
训练学习单元506,用于将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
在一实施例中,如图6所示,所述划分单元501包括:
等距分割单元601,用于根据等距分割原则将每一所述汉字按照九宫格的方式进行划分;
计算单元602,用于针对每一所述汉字,计算对应所述九宫格的每一网格中所述汉字所占像素与对应所述九宫格中所述汉字的总像素的比例,将计算得到的比例作为每一所述汉字在对应所述九宫格的每一网格中的交并比,并将所述交并比与预设阈值进行比较;
第一比较单元603,用于若所述交并比大于或者等于所述预设阈值,则保留对应网格中的交并比;
第二比较单元604,用于若所述交并比小于所述预设阈值,则将对应网格中的交并比重置为0;
拼接单元605,用于将所述九宫格中的每一网格中的交并比依次进行拼接,得到每一所述汉字的初始向量。
在一实施例中,所述权重赋予单元502包括:
统计单元,用于对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量。
在一实施例中,所述向量排列单元503包括:
笔划获取单元,用于针对每一所述汉字,获取对应所述汉字的笔划顺序,并统计每一笔划跨越的网格;
笔划排列单元,用于将每一笔划跨越的网格依次进行排序得到所述汉字的笔划序列,然后将所述笔划序列中各元素对应的初始几何特征向量中的同维度数值,按照所述所述笔划序列中各元素的位次进行排列,得到所述汉字对应的目标几何特征向量。
在一实施例中,如图7所示,所述设置单元504包括:
分配单元701,用于对每一所述汉字在所述训练样本中的出现频率进行统计,并进行排列,然后根据排列后的结果为每一所述汉字分配初始ID;
词性排列单元702,针对每一所述汉字,用于利用最大熵方法识别每一所述汉字在所述训练样本中对应的词性,并将每一所述汉字的词性在所述训练样本中的出现频率进行排序,然后根据出现频率最高的词性为每一所述汉字赋予赋予词性重要度;
相加单元703,用于将每一所述汉字的初始ID和对应的词性重要度进行相加,得到每一所述汉字的训练ID;
归一化单元704,用于对每一所述汉字的训练ID进行归一化处理,得到每一所述汉字的目标ID。
在一实施例中,所述结合单元505包括:
选择单元,用于随机选择所述训练样本中的一个汉字作为目标汉字;
拼接单元,用于将所述目标汉字的目标几何特征向量依次与其最相邻的若干汉字的目标ID进行向量拼接,得到所述目标汉字的样本数据。
在一实施例中,如图8所示,所述训练学习单元506包括:
输入单元801,用于将所述目标汉字的样本数据输入至所述神经网络模型的输入层中,并由所述输入层输出所述目标汉字的样本数据对应的特征向量;
求和及平均单元802,用于利用所述神经网络模型的隐藏层对所述特征向量进行求和处理和平均处理,得到中间层向量;
输出单元803,用于利用所述神经网络模型网络的输出层所述所述中间层向量进行归一化处理,得到所述目标汉字的样本数据对应的概率值,将所述概率值作为所述目标汉字的字向量。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种汉字字向量生成方法,其特征在于,包括:
获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
所述根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量,包括:
对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量;
根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
2.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量,包括:
根据等距分割原则将每一所述汉字按照九宫格的方式进行划分;
针对每一所述汉字,计算对应所述九宫格的每一网格中所述汉字所占像素与对应所述九宫格中所述汉字的总像素的比例,将计算得到的比例作为每一所述汉字在对应所述九宫格的每一网格中的交并比,并将所述交并比与预设阈值进行比较;
若所述交并比大于或者等于所述预设阈值,则保留对应网格中的交并比;
若所述交并比小于所述预设阈值,则将对应网格中的交并比重置为0;
将所述九宫格中的每一网格中的交并比依次进行拼接,得到每一所述汉字的初始向量。
3.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量,包括:
针对每一所述汉字,获取对应所述汉字的笔划顺序,并统计每一笔划跨越的网格;
将每一笔划跨越的网格依次进行排序得到所述汉字的笔划序列,然后将所述笔划序列中各元素对应的初始几何特征向量中的同维度数值,按照所述所述笔划序列中各元素的位次进行排列,得到所述汉字对应的目标几何特征向量。
4.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID,包括:
对每一所述汉字在所述训练样本中的出现频率进行统计,并进行排列,然后根据排列后的结果为每一所述汉字分配初始ID;
针对每一所述汉字,利用最大熵方法识别所述汉字在所述训练样本中对应的词性,并将每一词性在所述训练样本中的出现频率进行排序,然后根据出现频率最高的词性为所述汉字赋予词性重要度;
将每一所述汉字的初始ID和对应的词性重要度进行相加,得到每一所述汉字的训练ID;
对每一所述汉字的训练ID进行归一化处理,得到每一所述汉字的目标ID。
5.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据,包括:
随机选择所述训练样本中的一个汉字作为目标汉字;
将所述目标汉字的目标几何特征向量依次与其最相邻的若干汉字的目标ID进行向量拼接,得到所述目标汉字的样本数据。
6.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量,包括:
将所述目标汉字的样本数据输入至所述神经网络模型的输入层中,并由所述输入层输出所述目标汉字的样本数据对应的特征向量;
利用所述神经网络模型的隐藏层对所述特征向量进行求和处理和平均处理,得到中间层向量;
利用所述神经网络模型网络的输出层所述所述中间层向量进行归一化处理,得到所述目标汉字的样本数据对应的概率值,将所述概率值作为所述目标汉字的字向量。
7.一种汉字字向量生成装置,其特征在于,包括:
划分单元,用于获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
权重赋予单元,用于根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
所述权重赋予单元包括:
统计单元,用于对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量;
向量排列单元,用于根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
设置单元,用于根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
结合单元,用于从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
训练学习单元,用于将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的汉字字向量生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的汉字字向量生成方法。
CN202011415045.7A 2020-12-03 2020-12-03 一种汉字字向量生成方法、装置、计算机设备及存储介质 Active CN112507866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011415045.7A CN112507866B (zh) 2020-12-03 2020-12-03 一种汉字字向量生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011415045.7A CN112507866B (zh) 2020-12-03 2020-12-03 一种汉字字向量生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112507866A CN112507866A (zh) 2021-03-16
CN112507866B true CN112507866B (zh) 2021-07-13

Family

ID=74970585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011415045.7A Active CN112507866B (zh) 2020-12-03 2020-12-03 一种汉字字向量生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112507866B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111977B (zh) * 2021-05-20 2021-11-09 润联软件系统(深圳)有限公司 训练样本的贡献度评价方法、装置及相关设备
CN113191158B (zh) * 2021-05-21 2021-10-26 润联软件系统(深圳)有限公司 基于Voronoi图的训练样本遮掩方法、装置及相关设备
CN113255318A (zh) * 2021-06-11 2021-08-13 北京明略软件系统有限公司 一种基于部首偏旁的字向量计算方法及装置
CN113743054A (zh) * 2021-08-17 2021-12-03 上海明略人工智能(集团)有限公司 字母向量学习方法、系统、存储介质及电子设备
CN115187997B (zh) * 2022-07-13 2023-07-28 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606028A (zh) * 2004-11-12 2005-04-13 清华大学 基于阿拉伯字符集的印刷体字符识别方法
WO2009137073A1 (en) * 2008-05-06 2009-11-12 Compulink Management Center, Inc. Camera-based document imaging
CN107958250A (zh) * 2017-10-16 2018-04-24 燕山大学 一种基于机器视觉的西林瓶药品标签识别方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN109271610A (zh) * 2018-07-27 2019-01-25 昆明理工大学 一种汉字的向量表达方法
CN109492859A (zh) * 2018-09-25 2019-03-19 平安科技(深圳)有限公司 基于神经网络模型的员工分类方法及装置、设备、介质
CN109800440A (zh) * 2019-02-26 2019-05-24 京东方科技集团股份有限公司 汉字的序列标注方法及系统、计算机设备及可读存储介质
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN110659702A (zh) * 2019-10-17 2020-01-07 黑龙江德亚文化传媒有限公司 基于生成式对抗网络模型书法字帖评价系统及方法
CN110674822A (zh) * 2019-09-25 2020-01-10 重庆理工大学 一种基于特征降维的手写数字识别方法
CN110751232A (zh) * 2019-11-04 2020-02-04 哈尔滨理工大学 一种中文复杂场景文本检测与识别方法
CN110866115A (zh) * 2019-10-16 2020-03-06 平安科技(深圳)有限公司 序列标注方法、系统、计算机设备及计算机可读存储介质
US10607484B2 (en) * 2017-12-28 2020-03-31 Intel Corporation Privacy-preserving distributed visual data processing
CN111046774A (zh) * 2019-12-06 2020-04-21 国网湖北省电力有限公司电力科学研究院 一种基于卷积神经网络的中文签名笔迹鉴定方法
CN111310697A (zh) * 2020-02-17 2020-06-19 硕橙(厦门)科技有限公司 设备运转周期检测及健康度分析方法、装置及存储介质
CN111753167A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514430B (zh) * 2012-06-29 2016-12-21 华为技术有限公司 检测火焰的方法和装置
US20160350652A1 (en) * 2015-05-29 2016-12-01 North Carolina State University Determining edit operations for normalizing electronic communications using a neural network
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
US10338968B2 (en) * 2016-02-05 2019-07-02 Sas Institute Inc. Distributed neuromorphic processing performance accountability
CN108537217B (zh) * 2018-04-04 2021-06-25 湖南科技大学 基于字符编码标志的识别及定位方法
CN109117898A (zh) * 2018-08-16 2019-01-01 新智数字科技有限公司 一种手写字符识别方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606028A (zh) * 2004-11-12 2005-04-13 清华大学 基于阿拉伯字符集的印刷体字符识别方法
WO2009137073A1 (en) * 2008-05-06 2009-11-12 Compulink Management Center, Inc. Camera-based document imaging
CN107958250A (zh) * 2017-10-16 2018-04-24 燕山大学 一种基于机器视觉的西林瓶药品标签识别方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
US10607484B2 (en) * 2017-12-28 2020-03-31 Intel Corporation Privacy-preserving distributed visual data processing
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN109271610A (zh) * 2018-07-27 2019-01-25 昆明理工大学 一种汉字的向量表达方法
CN109492859A (zh) * 2018-09-25 2019-03-19 平安科技(深圳)有限公司 基于神经网络模型的员工分类方法及装置、设备、介质
CN109800440A (zh) * 2019-02-26 2019-05-24 京东方科技集团股份有限公司 汉字的序列标注方法及系统、计算机设备及可读存储介质
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN110674822A (zh) * 2019-09-25 2020-01-10 重庆理工大学 一种基于特征降维的手写数字识别方法
CN110866115A (zh) * 2019-10-16 2020-03-06 平安科技(深圳)有限公司 序列标注方法、系统、计算机设备及计算机可读存储介质
CN110659702A (zh) * 2019-10-17 2020-01-07 黑龙江德亚文化传媒有限公司 基于生成式对抗网络模型书法字帖评价系统及方法
CN110751232A (zh) * 2019-11-04 2020-02-04 哈尔滨理工大学 一种中文复杂场景文本检测与识别方法
CN111046774A (zh) * 2019-12-06 2020-04-21 国网湖北省电力有限公司电力科学研究院 一种基于卷积神经网络的中文签名笔迹鉴定方法
CN111310697A (zh) * 2020-02-17 2020-06-19 硕橙(厦门)科技有限公司 设备运转周期检测及健康度分析方法、装置及存储介质
CN111753167A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自然语言处理中序列标注问题的联合学习方法研究;李鑫鑫;《中国博士学位论文全文数据库 信息科技辑》;20141215(第12期);第I138-92页 *

Also Published As

Publication number Publication date
CN112507866A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507866B (zh) 一种汉字字向量生成方法、装置、计算机设备及存储介质
JP6929539B2 (ja) ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
Gweon et al. Three methods for occupation coding based on statistical learning
CN110110041A (zh) 错词纠正方法、装置、计算机装置及存储介质
CN108073568A (zh) 关键词提取方法和装置
CN105786898B (zh) 一种领域本体的构建方法和装置
CN112434211A (zh) 一种数据处理方法、装置、存储介质及设备
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN113051930A (zh) 基于Bert模型的意图识别方法、装置及相关设备
CN115798022A (zh) 一种基于特征提取的人工智能识别方法
WO2018066489A1 (ja) ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
CN107797981B (zh) 一种目标文本识别方法及装置
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
Jäger Power laws and other heavy-tailed distributions in linguistic typology
CN112989054B (zh) 一种文本处理方法和装置
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
JP7272846B2 (ja) 文書分析装置および文書分析方法
KR102330190B1 (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113901203A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN112579775A (zh) 非结构化文本的分类方法及计算机可读存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN112434174A (zh) 多媒体信息的发布账号的识别方法、装置、设备及介质
CN111159366A (zh) 一种基于正交主题表示的问答优化方法
CN112232069B (zh) 一种基于多模式数据的匹配处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Wei

Inventor after: Huang Yongqi

Inventor after: Yu Cuicui

Inventor after: Zhang Qian

Inventor before: Wang Wei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee after: China Resources Digital Technology Co.,Ltd.

Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee before: Runlian software system (Shenzhen) Co.,Ltd.

CP01 Change in the name or title of a patent holder