CN110298035A

CN110298035A - 基于人工智能的字向量定义方法、装置、设备及存储介质

Info

Publication number: CN110298035A
Application number: CN201910483399.6A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-01
Anticipated expiration: 2039-06-04
Also published as: CN110298035B; WO2020244065A1

Abstract

本发明涉及人工智能技术领域，尤其涉及分词模型领域，公开了一种基于人工智能的字向量定义方法、装置、设备及存储介质，用于将单个字作为最小结构，给每个字在不同的词语中赋予多个不同的含义，增加了字向量在句子中含义的准确性。本发明方法包括：获取目标文本，目标文本包括需要进行分词的中文语句；对目标文本进行分词得到多个词语；根据多个词语生成对应的多个目标词向量；根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。

Description

基于人工智能的字向量定义方法、装置、设备及存储介质

技术领域

本发明涉及分词模型领域，尤其涉及一种基于人工智能的字向量定义方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，深度学习技术的突飞猛进，为自然语言处理(natural language processing，NLP)提供了强大的工具。其中，深度学习为自然语言处理带来的最令人兴奋的突破是词向量技术和字向量技术。词向量技术是将词转化成为稠密向量，并且对于相似的词，其对应的词向量也相近。在自然语言处理应用中，词向量和字向量作为深度学习模型的特征进行输入。因此，最终模型的效果很大程度上取决于词向量和字向量的效果。

目前在具体实践中，字向量与词向量的定义是相对于独立的，在做实体识别的时候大部分采用字向量，在做文本分类，主题提取的时候大部分采用词向量的方式来进行识别。词向量的缺点是数量庞大而且在实体抽取中，容易出现小词不对而导致大词不对的问题。字向量的缺点在于，单个的词可能会有多完全不相关的意思，比如“老人”中的‘老’和“老子”中的‘老’，他的字向量只能表示一个意思和我们理解的不符合。

现有方案中，对于同一个字，当应用到词中时，单个的词中的字义可能会与词义完全不相关，字向量表意单一。

发明内容

本发明提供了一种基于人工智能的字向量定义方法、装置、设备及存储介质，用于将单个字作为最小结构，考虑字向量和词向量的结合，给每个字在不同的词语中赋予多个不同的含义，增加了字向量在句子中含义的准确性。

本发明实施例的第一方面提供一种基于人工智能的字向量定义方法，包括：获取目标文本，所述目标文本包括需要进行分词的中文语句；对所述目标文本进行分词得到多个词语；根据所述多个词语生成对应的多个目标词向量；根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字；将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词。

可选的，在本发明实施例第一方面的第一种实现方式中，所述根据所述多个词语生成对应的多个目标词向量包括：将所述多个词语输入到预置的算法模型中；将每个词语映射成K维词语向量，其中，K为大于0的整数；计算得到每个词语向量之间的距离；根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度；根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量；确定多个目标词向量，每个目标词向量对应一个词语。

可选的，在本发明实施例第一方面的第二种实现方式中，在所述将所述多个词语输入到预置的算法模型中之前，所述方法还包括：随机生成一个词向量矩阵，每一个行对应一个单词的向量；在所述词向量矩阵确定一个目标单词，并从所述词向量矩阵中提取周边单词的词向量；计算所述周边单词的词向量的均值向量；将所述均值向量输入到预置的逻辑回归模型中进行训练；生成预置的算法模型，所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。

可选的，在本发明实施例第一方面的第三种实现方式中，所述计算得到每个词语向量之间的距离包括：在所述词语向量中确定第一向量和第二向量；计算所述第一向量和所述第二向量之间的余弦值，满足公式：

其中，D₁、D₂分别表示第一向量和第二向量，W_1k表示第一向量的权重，W_2k表示第二向量的权重，第一向量和第二向量都包括N个特征值，1≤k≤N；将所述余弦值确定为所述第一向量和所述第二向量的距离。

可选的，在本发明实施例第一方面的第四种实现方式中，所述根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字包括：获取预置的权重策略，所述预置的权重策略包含每个词向量的权重值；确定所述多个目标词向量中每个词向量的目标权重值；根据所述多个目标词向量和所述多个目标词向量中各个目标权重值生成目标字向量。

可选的，在本发明实施例第一方面的第五种实现方式中，所述根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字之后，所述方法还包括：将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词。

可选的，在本发明实施例第一方面的第六种实现方式中，所述将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词包括：将每个目标字向量作为模型参数输入到LSTM和CRF模型中；确定每个目标字向量在字空间中的位置；根据所述每个目标字向量在字空间中的位置对所述中文语句进行实体识别，生成预测分词。

本发明实施例的第二方面提供了一种基于人工智能的字向量定义装置，包括：获取单元，用于获取目标文本，所述目标文本包括需要进行分词的中文语句；分词单元，用于对所述目标文本进行分词得到多个词语；第一生成单元，用于根据所述多个词语生成对应的多个目标词向量；第二生成单元，用于根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字。

可选的，在本发明实施例第二方面的第一种实现方式中，第一生成单元包括：第一输入模块，用于将所述多个词语输入到预置的算法模型中；映射模块，用于将每个词语映射成K维词语向量，其中，K为大于0的整数；第一计算模块，用于计算得到每个词语向量之间的距离；第一确定模块，用于根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度；第二确定模块，用于根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量；第三确定模块，用于确定多个目标词向量，每个目标词向量对应一个词语。

可选的，在本发明实施例第二方面的第二种实现方式中，第一生成单元还包括：第一生成模块，用于随机生成一个词向量矩阵，每一个行对应一个单词的向量；提取模块，用于在所述词向量矩阵确定一个目标单词，并从所述词向量矩阵中提取周边单词的词向量；第二计算模块，用于计算所述周边单词的词向量的均值向量；训练模块，用于将所述均值向量输入到预置的逻辑回归模型中进行训练；第二生成模块，用于生成预置的算法模型，所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。

可选的，在本发明实施例第二方面的第三种实现方式中，第一计算模块具体用于：在所述词语向量中确定第一向量和第二向量；计算所述第一向量和所述第二向量之间的余弦值，满足公式：其中，D₁、D₂分别表示第一向量和第二向量，W_1k表示第一向量的权重，W_2k表示第二向量的权重，第一向量和第二向量都包括N个特征值，1≤k≤N；将所述余弦值确定为所述第一向量和所述第二向量的距离。

可选的，在本发明实施例第二方面的第四种实现方式中，第二生成单元具体用于：获取预置的权重策略，所述预置的权重策略包含每个词向量的权重值；确定所述多个目标词向量中每个词向量的目标权重值；根据所述多个目标词向量和所述多个目标词向量中各个目标权重值生成目标字向量。

可选的，在本发明实施例第二方面的第五种实现方式中，基于人工智能的字向量定义装置还包括：第三生成单元，用于将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词。

可选的，在本发明实施例第二方面的第六种实现方式中，第三生成单元包括：第二输入模块，用于将每个目标字向量作为模型参数输入到LSTM和CRF模型中；第四确定模块，用于确定每个目标字向量在字空间中的位置；识别生成模块，用于根据所述每个目标字向量在字空间中的位置对所述中文语句进行实体识别，生成预测分词。

本发明实施例的第三方面提供了一种基于人工智能的字向量定义设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于人工智能的字向量定义方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的基于人工智能的字向量定义方法的步骤。

本发明实施例提供的技术方案中，获取目标文本，目标文本包括需要进行分词的中文语句；对目标文本进行分词得到多个词语；根据多个词语生成对应的多个目标词向量；根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。本发明实施例，将单个字作为最小结构，考虑字向量和词向量的结合，给每个字在不同的词语中赋予多个不同的含义，增加了字向量在句子中含义的准确性，进而提高了中文分词的效率。

附图说明

图1为本发明实施例中基于人工智能的字向量定义方法的一个实施例示意图；

图2为本发明实施例中基于人工智能的字向量定义方法的另一个实施例示意图；

图3为本发明实施例中基于人工智能的字向量定义装置的一个实施例示意图；

图4为本发明实施例中基于人工智能的字向量定义装置的另一个实施例示意图；

图5为本发明实施例中基于人工智能的字向量定义设备的一个实施例示意图。

具体实施方式

本发明提供了一种基于人工智能的字向量定义方法、装置、设备及存储介质，用于将单个字作为最小结构，考虑字向量和词向量的结合，给每个字在不同的词语中赋予多个不同的含义，增加了每个字在句子中含义的准确性，提高了中文分词的效率。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的基于人工智能的字向量定义方法的流程图，具体包括：

101、获取目标文本，目标文本包括需要进行分词的中文语句。

服务器获取目标文本，该目标文本包括需要进行分词的中文语句。例如，中文语句可以为“我喜欢苹果”，或者是“工程师傅打电脑”等，本发明实施例以“工程师傅打电脑”作为中文语句进行说明。

可以理解的是，本发明的执行主体可以为基于人工智能的字向量定义装置，还可以是终端或者服务器，具体此处不做限定。本发明以服务器为执行主体为例进行说明。

102、对目标文本进行分词得到多个词语。

服务器利用预置的分词工具，例如，结巴中文分词工具、HanLP等工具，对目标文本进行分词得到多个词语。例如，目标文本是“我是一名算法工程师”，那么，可以分别得到“我”、“是”、“一名”、“算法”、“工程师”等五个词语。

例如，对目标文本“工程师傅打电脑”进行分词，采用3-Gram或2-Gram分词，发现文本前面有“工程师”、“程师”，后面有“师傅”、“师傅打”，总共有“工程师”、“程师”、“师傅”、“师傅打”。

103、根据多个词语生成对应的多个目标词向量。

服务器根据多个词语定义对应的多个目标词向量。具体的，服务器将多个词语输入到预置的算法模型中；服务器将每个词语映射成K维词语向量，其中，K为大于0的整数；服务器计算得到每个词语向量之间的距离；服务器根据每个词语向量之间的距离确定每个词语向量之间的语义相似度；服务器根据每个词语向量之间的语义相似度确定与多个词语中目标词语的语义相似度最高的向量为目标词向量；服务器确定多个目标词向量，每个目标词向量对应一个词语。

例如，服务器通过预置的模型，将上面识别到的四个词输入到预置的模型中，在预置的模型中匹配到了“工程师”，“师傅”这两个词，确定词向量“工程师”和词向量“师傅”。

需要说明的是，生成的预置的模型，需要确保每个词向量的有效性。如果在词向量中只有“工程”，“师傅”，当我们遇到一个句子为“工程师是一个好职业”时，预置的模型预测出的结果只能和已有的词向量相匹配，如果继续做实体识别，就会得到“工程(B)师(E)是”割裂了“工程师”这个整体，虽然也可以得到结果，但是信息缺被割裂了。

在向量空间模型中，目标文本泛指各种机器可读的记录。文本用D(Document)表示，特征项用T(Term)表示，T是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1，T2，…，Tn)，其中Tk是特征项，1≤k≤N。例如一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示为D(a，b，c，d)。对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即D＝D(T1，W1；T2，W2；…，Tn，Wn)，简记为D＝D(W1，W2，…，Wn)，我们把它叫做文本D的向量表示。

104、根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。

服务器根据对应的多个词向量和预置的权重策略生成目标字向量，其中，多个词向量对应的多个词语中每个词语都包含该字向量对应的字。例如，对“师”字进行定义字向量，则现在“师”的字向量为(师的字向量+师傅的词向量+工程师的词向量)/3，得到“师”的目标字向量。

需要说明的是，为了反映字对于周围环境影响而导致字向量的变化情况，除了上述例子中取平均值的方法，丰富了字向量的属性，还可以考虑用注意力机制attention为每一个字都自己计算一个适合权重然后加权平均，可参考现有技术，具体此处不再赘述。

本发明实施例，获取目标文本，目标文本包括需要进行分词的中文语句；对目标文本进行分词得到多个词语；根据多个词语生成对应的多个目标词向量；根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。将单个字作为最小结构，考虑字向量和词向量的结合，给每个字在不同的词语中赋予多个不同的含义，增加了字向量在句子中含义的准确性。

请参阅图2，本发明实施例提供的基于人工智能的字向量定义方法的另一个流程图，具体包括：

201、获取目标文本，目标文本包括需要进行分词的中文语句。

202、对目标文本进行分词得到多个词语。

203、根据多个词语生成对应的多个目标词向量。

在向量空间模型中，目标文本泛指各种机器可读的记录。文本用D(Document)表示，特征项用T(Term)表示，T是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1，T2，…，Tn)，其中Tk是特征项，。例如一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示为D(a，b，c，d)。对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即D＝D(T1，W1；T2，W2；…，Tn，Wn)，简记为D＝D(W1，W2，…，Wn)，我们把它叫做文本D的向量表示。其中Wk是Tk的权重，1≤k≤N。在上述例子中，假设a、b、c、d的权重分别为30，20，20，10，那么该文本的向量可以表示为D(30，20，20，10)。在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示。

例如，文本D1的特征项为a，b，c，d，权值分别为30，20，20，10，文本C1的特征项为a，c，d，e，权值分别为40，30，20，10，则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40，0，30，20，10)，则计算出来的文本D1与文本C1相似度是0.86。

204、根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。

205、将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对中文语句进行实体识别生成预测分词。

服务器将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对中文语句进行实体识别生成预测分词。具体的，服务器将每个目标字向量作为模型参数输入到LSTM和CRF模型中；服务器确定每个目标字向量在字空间中的位置；服务器根据每个目标字向量在字空间中的位置对中文语句进行实体识别，生成预测分词。

可选的，根据每个目标字向量在字空间中的位置对中文语句进行实体识别，生成预测分词的过程具体包括：

将中文语句表示为X＝(x1,x2,...,xn)，根据预置的公式生成标签序列y＝(y1,y2,...,yn)，y1和yn分别表示中文语句的开始标签和结束标签，预置的公式为：其中，P为双向LSTM的输出经过全连接层后映射的分数矩阵，P_i,j表示中文语句中第i个字对应的第j个标签的分数，其维度为n×k，k为标签的个数，A表示分词标签的转移矩阵，A_i,j表示标签i与标签j之间的过渡分数，1≤i≤k,1≤j≤k；确定分词标签序列的概率p，满足公式：计算概率p的损失函数：其中，Y_X表示中文语句X所有的标签序列；根据损失函数确定分数最高的标签作为预测分词，预测分词满足：

本发明实施例，获取目标文本，目标文本包括需要进行分词的中文语句；对目标文本进行分词得到多个词语；根据多个词语生成对应的多个目标词向量；根据多个目标词向量和预置的权重策略生成目标字向量，多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。将单个字作为最小结构，考虑字向量和词向量的结合，给每个字在不同的词语中赋予多个不同的含义，增加了字向量在句子中含义的准确性，进而提高了中文分词的效率。

上面对本发明实施例中基于人工智能的字向量定义方法进行了描述，下面对本发明实施例中基于人工智能的字向量定义装置进行描述，请参阅图3，本发明实施例中基于人工智能的字向量定义装置的一个实施例包括：

获取单元301，用于获取目标文本，所述目标文本包括需要进行分词的中文语句；

分词单元302，用于对所述目标文本进行分词得到多个词语；

第一生成单元303，用于根据所述多个词语生成对应的多个目标词向量；

第二生成单元304，用于根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字。

请参阅图4，本发明实施例中基于人工智能的字向量定义装置的另一个实施例包括：

分词单元302，用于对所述目标文本进行分词得到多个词语；

可选的，第一生成单元303包括：

第一输入模块30301，用于将所述多个词语输入到预置的算法模型中；

映射模块30302，用于将每个词语映射成K维词语向量，其中，K为大于0的整数；

第一计算模块30303，用于计算得到每个词语向量之间的距离；第一确定模块，用于根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度；

第二确定模块30304，用于根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量；

第三确定模块30305，用于确定多个目标词向量，每个目标词向量对应一个词语。

可选的，第一生成单元303还包括：

第一生成模块30306，用于随机生成一个词向量矩阵，每一个行对应一个单词的向量；

提取模块30307，用于在所述词向量矩阵确定一个目标单词，并从所述词向量矩阵中提取周边单词的词向量；

第二计算模块30308，用于计算所述周边单词的词向量的均值向量；

训练模块30309，用于将所述均值向量输入到预置的逻辑回归模型中进行训练；

第二生成模块30310，用于生成预置的算法模型，所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。

可选的，第一计算模块30303具体用于：

在所述词语向量中确定第一向量和第二向量；计算所述第一向量和所述第二向量之间的余弦值，满足公式：其中，D₁、D₂分别表示第一向量和第二向量，W_1k表示第一向量的权重，W_2k表示第二向量的权重，第一向量和第二向量都包括N个特征值，1≤k≤N；将所述余弦值确定为所述第一向量和所述第二向量的距离。

可选的，第二生成单元304具体用于：

获取预置的权重策略，所述预置的权重策略包含每个词向量的权重值；确定所述多个目标词向量中每个词向量的目标权重值；根据所述多个目标词向量和所述多个目标词向量中各个目标权重值生成目标字向量。

可选的，基于人工智能的字向量定义装置还包括：

第三生成单元305，用于将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词。

可选的，第三生成单元305具体包括：

第二输入模块3051，用于将每个目标字向量作为模型参数输入到LSTM和CRF模型中；

第四确定模块3052，用于确定每个目标字向量在字空间中的位置；

识别生成模块3053，用于根据所述每个目标字向量在字空间中的位置对所述中文语句进行实体识别，生成预测分词。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于人工智能的字向量定义装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于人工智能的字向量定义设备进行详细描述。

图5是本发明实施例提供的一种基于人工智能的字向量定义设备的结构示意图，该基于人工智能的字向量定义设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于人工智能的字向量定义设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于人工智能的字向量定义设备500上执行存储介质508中的一系列指令操作。

基于人工智能的字向量定义设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于人工智能的字向量定义设备结构并不构成对基于人工智能的字向量定义设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、分词单元302、第一生成单元303、第二生成单元304和第三生成单元305的功能。

下面结合图5对基于人工智能的字向量定义设备的各个构成部件进行具体的介绍：

处理器501是基于人工智能的字向量定义设备的控制中心，可以按照设置的基于人工智能的字向量定义方法进行处理。处理器501利用各种接口和线路连接整个基于人工智能的字向量定义设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行基于人工智能的字向量定义设备的各种功能和处理数据，将报文域中的不可读标签转换为可读标签，从而实现对报文中的应用场景的快速识别。存储介质508和存储器509都是存储数据的载体，本发明实施例中，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行基于人工智能的字向量定义设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如根据多个目标词向量和预置的权重策略生成目标字向量)等；存储数据区可存储根据基于人工智能的字向量定义设备的使用所创建的数据(比如多个目标词向量)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本发明实施例中提供的基于人工智能的字向量定义方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的字向量定义方法，其特征在于，包括：

获取目标文本，所述目标文本包括需要进行分词的中文语句；

对所述目标文本进行分词得到多个词语；

根据所述多个词语生成对应的多个目标词向量；

根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字。

2.根据权利要求1所述的基于人工智能的字向量定义方法，其特征在于，所述根据所述多个词语生成对应的多个目标词向量包括：

将所述多个词语输入到预置的算法模型中；

将每个词语映射成K维词语向量，其中，K为大于0的整数；

计算得到每个词语向量之间的距离；

根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度；

根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量；

确定多个目标词向量，每个目标词向量对应一个词语。

3.根据权利要求2所述的基于人工智能的字向量定义方法，其特征在于，在所述将所述多个词语输入到预置的算法模型中之前，所述方法还包括：

随机生成一个词向量矩阵，每一个行对应一个单词的向量；

在所述词向量矩阵确定一个目标单词，并从所述词向量矩阵中提取周边单词的词向量；

计算所述周边单词的词向量的均值向量；

将所述均值向量输入到预置的逻辑回归模型中进行训练；

生成预置的算法模型，所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。

4.根据权利要求2所述的基于人工智能的字向量定义方法，其特征在于，所述计算得到每个词语向量之间的距离包括：

在所述词语向量中确定第一向量和第二向量；

计算所述第一向量和所述第二向量之间的余弦值，满足公式：

其中，D₁、D₂分别表示第一向量和第二向量，W_1k表示第一向量的权重，W_2k表示第二向量的权重，第一向量和第二向量都包括N个特征值，1≤k≤N；

将所述余弦值确定为所述第一向量和所述第二向量的距离。

5.根据权利要求1所述的基于人工智能的字向量定义方法，其特征在于，所述根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字包括：

获取预置的权重策略，所述预置的权重策略包含每个词向量的权重值；

确定所述多个目标词向量中每个词向量的目标权重值；

根据所述多个目标词向量和所述多个目标词向量中各个目标权重值生成目标字向量。

6.根据权利要求1-5中任一所述的基于人工智能的字向量定义方法，其特征在于，所述根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字之后，所述方法还包括：

将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词。

7.根据权利要求6所述的基于人工智能的字向量定义方法，其特征在于，所述将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中，对所述中文语句进行实体识别生成预测分词包括：

将每个目标字向量作为模型参数输入到LSTM和CRF模型中；

确定每个目标字向量在字空间中的位置；

根据所述每个目标字向量在字空间中的位置对所述中文语句进行实体识别，生成预测分词。

8.一种基于人工智能的字向量定义装置，其特征在于，包括：

获取单元，用于获取目标文本，所述目标文本包括需要进行分词的中文语句；

分词单元，用于对所述目标文本进行分词得到多个词语；

第一生成单元，用于根据所述多个词语生成对应的多个目标词向量；

第二生成单元，用于根据所述多个目标词向量和预置的权重策略生成目标字向量，所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字。

9.一种基于人工智能的字向量定义设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于人工智能的字向量定义方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的基于人工智能的字向量定义方法。