CN113342932B

CN113342932B - 目标词向量的确定方法、装置、存储介质和电子装置

Info

Publication number: CN113342932B
Application number: CN202110599805.2A
Authority: CN
Inventors: 梁吉光; 徐凯波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-04-19
Anticipated expiration: 2041-05-31
Also published as: CN113342932A

Abstract

本申请涉及一种目标词向量的确定方法、装置、存储介质和电子装置，其中，该方法包括：获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。本申请解决了确定未登录词在目标领域内的词向量效率较低的技术问题。

Description

目标词向量的确定方法、装置、存储介质和电子装置

技术领域

本申请涉及自然语言处理领域，尤其涉及一种目标词向量的确定方法、装置、存储介质和电子装置。

背景技术

信息技术的不断发展使得许多领域的信息呈爆炸式增长，因此为满足人们的需求，大量的文本信息被电子化，通过自然语言的处理满足人们对数据挖掘、文本分类、数据管理、数据查询等方面的需求；在进行自然语言处理是首先要做的就是对文本进行自然语言向量化，词作为语言的重要组成部分，是最小的能够独立运行的语言单位，也是人类思维的最小语言单位，通过对词语构建词向量以获得文本的内在语义关系。

相关技术中通过使用预训练的Bert模型生成词语的词向量，但受限于显存，Bert模型只能在较小的词典上使用，对词典外的词语是无能为力的。因为词语是不可枚举的，每天都会有新词产生，并且还会存在同一个词在不同的领域中词义不同的现象，词义不同时词向量自然也就不同，通过增加领域内的词典中词语的数量显然是不能从根本上解决计算词语在领域内的词向量的问题的。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种目标词向量的确定方法、装置、存储介质和电子装置，以至少解决相关技术中确定未登录词在目标领域内的词向量效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种目标词向量的确定方法，包括：获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量包括：基于目标关系确定第一数量的目标字符的共现次数和领域文本中包括的每个目标字符的字符数量，其中，共现次数用于指示领域文本中包括的任意连续的第二数量的字符中同时出现第一数量的目标字符的次数，第一数量小于第二数量；根据共现次数和目标文本中包括的每个目标字符的字符数量确定每个目标字符的权重值；使用权重值对字符向量进行赋权计算，得到目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，根据共现次数和领域文本中包括的每个目标字符的字符数量确定每个目标字符的权重值包括：使用第一公式对第一数量的目标字符的共现次数和每个目标字符的字符数量进行计算，得到第一数量的目标字符之间的点互信息，其中，点互信息用于指示第一数量的目标字符在领域文本中的关联关系；使用第二公式对第一数量的目标字符之间的点互信息进行计算，得到目标未登录词中每个目标字符的权重值。

可选地，第一公式包括：

PMI(wi，wj)为目标未登录词中包含的两个目标字符wi和wj的点互信息，num(wi，wj)为目标字符wi和wj同时出现在领域文本中包括的任意连续的第二数量的字符中的次数，num(wi)为领域文本中包含的目标字符wi的数量，num(wj)为领域文本中包含的目标字符wj的数量，λ为平滑系数。

可选地，第二公式包括：

O为领域文本中的目标未登录词O，f(wj)为与目标字符wj共同出现在同一个第二数量的字符中的字符的集合，f(wk)为与字符wk同时出现在同一个第二数量的字符中的字符的集合，PMI(wk，wt)为目标领域文本中的任意字符与目标字符之间的点互关系，weight(O，wj)为目标未登录词O中目标字符wj的权重值。

可选地，获取目标领域的目标文本中包含的目标未登录词包括：确定目标文本所属的目标领域；使用滑动窗口按照预定顺序对目标文本进行分词，得到目标文本中包括的任意连续的第二数量的字符，其中，滑动窗口的窗口大小为第二数量的字符大小；使用与目标领域对应的词向量生成模型对目标文本中包含的任意连续的第二数量的字符识别，得到目标领域内的已登录词和目标未登录词。

可选地，在确定目标文本所属的目标领域之前，方法还包括：获取输入的初始文本；对初始文本进行预处理，得到目标文本，其中，预处理包括对初始文本进行分词处理、去除多余符号处理、字符归一化处理。

根据本申请实施例的另一方面，还提供了一种目标词向量的确定装置，包括：第一获取模块，用于获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；第一确定模块，用于确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；第二确定模块，用于根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

本方案可以应用于深度学习技术领域进行自然语言处理，在本申请实施例中，采用获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量的方式，词语是由字符构成的，每个字符都有对应的字符向量，在目标领域的领域文本中包含已登录词和未登录词，已登录词和未登录词也都是由字符组成的，因此可确定出目标领域的目标未登录词中的目标字符在目标领域的领域文本中的已登录词和未登录词中出现的频率，从而能够得到目标未登录词中的每个目标字符与本领域的领域文本之间的目标关系，在知道了目标字符与同领域的领域文本之间的目标关系后，就可以根据目标字符与本领域文本之间的目标关系和每个目标字符的字符向量确定出由目标字符组成的目标未登录词在该领域内的目标字符向量，达到了根据领域文本确定目标未登录词在目标领域内的目标词向量的目的，从而实现了提高确定未登录词在目标领域内的词向量的效率的技术效果，进而解决了确定未登录词在目标领域内的词向量效率较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的目标词向量的确定方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的目标词向量的确定方法的流程图；

图3是根据本申请实施例的一种可选的领域文本中未登录词向量的计算流程图；

图4是根据本申请实施例的一种可选的目标词向量的确定装置的示意图；

图5是根据本申请实施例的一种电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种目标词向量的确定方法实施例。

可选地，在本实施例中，上述目标词向量的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如数据计算服务、数据查询服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的目标词向量的确定方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的目标词向量的确定方法也可以是由安装在其上的客户端来执行。

图2是根据本申请实施例的一种可选的目标词向量的确定方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；

步骤S204，确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；

步骤S206，根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

通过上述步骤S202至步骤S206，词语是由字符构成的，每个字符都有对应的字符向量，在目标领域的领域文本中包含已登录词和未登录词，已登录词和未登录词也都是由字符组成的，因此可确定出目标领域的目标未登录词中的目标字符在目标领域的领域文本中的已登录词和未登录词中出现的频率，从而能够得到目标未登录词中的每个目标字符与本领域的领域文本之间的目标关系，在知道了目标字符与同领域的领域文本之间的目标关系后，就可以根据目标字符与本领域文本之间的目标关系和每个目标字符的字符向量确定出由目标字符组成的目标未登录词在该领域内的目标字符向量，达到了根据领域文本确定目标未登录词在目标领域内的目标词向量的目的，从而实现了提高确定未登录词在目标领域内的词向量的效率的技术效果，进而解决了确定未登录词在目标领域内的词向量效率较低的技术问题。

在步骤S202提供的技术方案中，在不同的领域中的目标未登录词的词向量是不同的，目标领域可以但不限于包括教育领域、医学领域、金融领域等等，本方案对此不作限定。

可选地，在本实施例中，目标文本是由若干数量的字符组成的，字符数量可以但不限于包括50、100、1000、10000等等，比如，目标文件可以是一篇包含十万字符的文章，还可以是一本包含一百万字符的书籍，或者还可以是数据库中某一表中存储的数据。

可选地，在本实施例中，已登录词和未登录词均可由若干个字符组成的，字符数量可以但不限与包括1个、2个、4个、5个等等，比如未登录词为“万事如意”时，则未登录词由4个目标字符组成，目标字符分别为“万”、“事”、“如”、“意”。

可选地，在本实施例中，目标字符的字符向量可以是使用与训练的字向量生成模型进行训练得到的，字向量生成模型可以但不限于包括训练过的word2vec、bert、GPT-2、GPT-3模型等等。

可选地，在本实施例中，目标文本中可以包括若干数量的已登录词和未登录词，比如，某一目标文本中的已登录词的数量可以但不限于是10个、30个、50个等等，未登录词的数量可以但不限于包括2个、3个、10个、20个等等。

在步骤S204提供的技术方案中，确定目标字符与领域文本之间的关系可以是目标字符与目标领域内的一个文本之间的关系，还可以是与目标领域内的多个文本之间的关系，比如可以是目标字符与目标文本之间的关系，还可以是目标字符与目标领域中除目标文本以外的其他一个或多个文本之间的关系，或者还可以是目标字符与目标领域内包含目标文本的多篇文本之间的关系，本方案对此不作限定。

可选地，在本实施例中，目标关系可以是目标未登录词包括的单个目标字符在已登录词和未登录词中出现的频率，还可以是目标未登录词包括的任意多个字符同时在已登录词和未登录词中的出现的频率，比如：以目标未登录词为“万事如意”为例，目标关系可以是“万”、“事”、“如”、“意”中任意字符在领域文本的已登录词和未登录词中出现的频率，还可以是任意两个字符的组合，如“万”和“如”同时出现在领域文本的已登录词和未登录词中出现的频率。

在步骤S206提供的技术方案中，确定目标未登录词的词向量的方法可以但不限于包括根据目标关系使用预设公式对字符向量进行计算得到的、使用生成模型根据目标关系和字符向量生成得到的。

作为一种可选的实施例，根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量包括：

S11，基于目标关系确定第一数量的目标字符的共现次数和领域文本中包括的每个目标字符的字符数量，其中，共现次数用于指示领域文本中包括的任意连续的第二数量的字符中同时出现第一数量的目标字符的次数，第一数量小于第二数量；

S12，根据共现次数和目标文本中包括的每个目标字符的字符数量确定每个目标字符的权重值；

S13，使用权重值对字符向量进行赋权计算，得到目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，在本实施例中，第一数量可以但不限于包括1个、2个、3个等等，第一数量的目标字符可以是随机选择的，本方案对目标字符在词中出现的先后顺序不作限定。

可选地，在本实施例中，第二数量是可以根据需求随机设置的，第二数量可以被设置为2、4、5等，比如，以领域文本为“床前明月光”这句话为例，设置第二数量为2，则此时文本中包括的任意连续的第二数量的字符分别为“床前”、“前明”、“明月”、“月光”，当设置第二数量为4时，此时文本中包括的任意连续的第二数量的字符分别为“床前明月”、“前明月光”。

可选地，在本实施例中，领域文本中包括的任意连续的第二数量的字符可以但不限于是通过用于采集字符滑动窗口对领域文本进行移动采集得到的，该滑动窗口的大小设置为第二数量，滑动窗口每次采集完第二数量的连续字符后按照目标顺序移动目标字符。

可选地，在本实施例中，赋权计算可以但不限于是使用目标公式计算得到，该目标公式可以是

在该公式中Ui为目标未登录词的词向量，weight(Oi，wj)为目标未登录词Oi中的目标字符wj的权重值，Vj为目标字符wj的字符向量。

通过以上步骤，根据第一数量的目标字符在领域文本中的共现次数以及领域文本中包含目标字符的数量可确定出目标字符在领域文本中的关系，进而可根据这个关系确定出目标未登录词中包括的各个目标字符之间的权重信息，并使用得到的权重值对字符向量进行赋权计算，从而得到目标词向量，使得确定出的目标词向量更加准确可靠。

作为一种可选的实施例，根据共现次数和领域文本中包括的每个目标字符的字符数量确定每个目标字符的权重值包括：

S21，使用第一公式对第一数量的目标字符的共现次数和每个目标字符的字符数量进行计算，得到第一数量的目标字符之间的点互信息，其中，点互信息用于指示第一数量的目标字符在领域文本中的关联关系；

S22，使用第二公式对第一数量的目标字符之间的点互信息进行计算，得到目标未登录词中每个目标字符的权重值。

通过以上步骤，通过第一公式对第一数量的目标字符的共现次数和每个目标字符的字符数量进行计算，从而得到第一数量目标制度在领域文本中的关联关系，进而可根据这个关联关系确定出各个目标字符之间的权重信息，从而使得确定出的各个目标字符的权重信息更加准确可靠。

作为一种可选的实施例，第一公式包括：

可选地，在本实施例中，平滑系数可以按照实际需求随机设置，比如可以设置平滑系数为0.5、1、1.1等等。

作为一种可选的实施例，第二公式包括：

O为领域文本中的目标未登录词O，f(wj)为与目标字符wj共同出现在同一个第二数量的字符中的字符的集合，f(wk)为与目标字符wk同时出现在同一个第二数量的字符中的字符的集合，PMI(wk，wt)为目标领域文本中的任意字符与目标字符之间的点互关系，weight(O，wj)为目标未登录词O中目标字符wj的权重值。

可选地，在本实施例中，以领域文本为“科技有限公司旗下数据中台和企业智能决策平台提供商，致力于通过大数据分析挖掘和认知智能技术”为例，在该领域文本中，未登录词为“数据中台”，则未登录词中包括的目标字符分别为“数”、“据”、“中”、“台”，该未登录词中包括的点互信息分别为“数-据”、“数-中”、“数-台”、“据-中”、“据-台”、“中-台”之间的点互信息，以“数-据”的点互信息为例，设置平滑系数为1，设置第二数量为2，则PMI(数，据)＝log((num(数，据)+1)/(num(数)*(num(据)+1))。则在未登录词“数据中台”中，目标字符“数”的权重值为：Weight(数据中台，数)＝(PMI(数，据)+PMI(数，中)+PMI(数，台))/(PMI(数，据)+PMI(数，中)+PMI(数，台)+PMI(数，大)+PMI(数，字)+PMI(行，数)+……+PMI(大，数)+PMI(进，行)+PMI(过，大))。

作为一种可选的实施例，获取目标领域的目标文本中包含的目标未登录词包括：

S31，确定目标文本所属的目标领域；

S32，使用滑动窗口按照预定顺序对目标文本进行分词，得到目标文本中包括的任意连续的第二数量的字符，其中，滑动窗口的窗口大小为第二数量的字符大小；

S33，使用与目标领域对应的词向量生成模型对目标文本中包含的任意连续的第二数量的字符识别，得到目标领域内的已登录词和目标未登录词。

可选地，在本实施例中，确定目标文本所属的目标领域可以是根据目标文本中的已登录词的词向量确定的，还可以是对目标文本进行语义解析确定的，本方案对此不作限定。

可选地，在本实施例中，词向量生成模型可以是训练过的word2vec、bert、GPT-2、GPT-3模型，或者还可以是用于存储已登录词和对应的词向量的模型，本方案对此不作限定。

可选地，在本实施例中，滑动窗口每次采集窗口内的第二数量字符，从而完成一次分词，在进行下一次分词时，滑动窗口按照预定顺序移动预设字符数量，并进行下一次采集，比如，以目标文本为“窗前明月光”为例，预设的第二数量为2，则该滑动窗口在目标文本中得到的分词包括“床前”、“前明”、“明月”、“月光”。

作为一种可选的实施例，在确定目标文本所属的目标领域之前，方法还包括：

S41，获取输入的初始文本；

S42，对初始文本进行预处理，得到目标文本，其中，预处理包括对初始文本进行分词处理、去除多余符号处理、字符归一化处理。

图3是根据本申请实施例的一种可选的领域文本中未登录词向量的计算流程图，如图3所示：

S301，获取领域文本语料。读取所属领域内的文本语并保存，读取到的领域文本不同计算得到的未登录词的词向量也不同，不同领域的未登录词不同，同一未登录词在不同领域的词向量也可能不同。

S302，领域文本预处理。对步骤S301中得到的领域文本进行预处理，包括中文分字(按字进行拆分)、文本分句(每个文本按句子进行拆分，一个文本根据标点符号可以拆分为若干个句子)、去除多余符号(如空格、换行符等)、切字等。

S303，统计滑动窗口N内的字符的共现关系。根据步骤S302中得到的预处理后的领域文本，采用滑动窗口方式，对窗口大小N内的字符进行两两共现统计。滑动窗口的大小可以根据需求设置不同的值，滑动窗口在进行字符识别时，按照预定顺序对领域未文本进行识别，每次识别N个字符。

S304，计算领域文本中任意两个字符的PMI。根据步骤S303得到的领域文本中两个字的共现关系，计算点互信息(point-wise mutual information，PMI)，以计算字符w_i和w_j的PMI为例：

PMI(wi，wj)为目两个字符wi和wj的点互信息，num(wi，wj)为字符wi和wj同时出现在领域文本中包括的任意连续的第二数量的字符中的次数，num(wi)为领域文本中包含的字符wi的数量，num(wj)为领域文本中包含的字符wj的数量，λ为平滑系数，第二数量可根据构词需求设置，一般设置为4、5等。

S305，获取预训练字向量模型。读取已准备的字向量预训练模型，保存字符与字向量的映射关系，已准备的字向量预训练模型，包括但不限于采用word2vec、bert、GPT-3等模型训练出的字向量模型，读取出的预训练字向量模型，采用二元组<字，字对应的向量>的形式进行存储。其中每个字所对应的向量有M个维度。一般地，M取值200、300或400。

S306，获取目标文本中的目标未登录词，目标未登录词待计算在目标领域内的词向量的词，目标文本是目标领域内的文本，该文本中可以包括已登录词和未登录词。

S307，将目标未登录词按字符进行拆分。对目标未登录词按照字符进行拆分，将未登录词拆分为目标字符的集合，并对目标未登录词中拆分出的目标字符进行去重。

S308，获取目标未登录词所包含的目标字符的字符向量。根据步骤S307中得到的目标未登录词拆分出的目标字符的集合以及步骤S305中得到的已预训练的字向量模型，获取目标未登录词中所包含的目标字符所对应的字符向量。

S309，获取目标未登录词所包含的多个目标字符中的任意两个目标字符之间的PMI。根据步骤S307中得到的目标未登录词拆分出的目标字符的集合以及步骤S304中得到的任意两个字的PMI，获取目标未登录词中所包含的多个目标字符中的任意两个目标字符之间的PMI。

S310，计算目标字符在目标未登录词构词过程中的构词贡献。根据步骤S309中获得的目标未登录词中所包含的目标字符的两两字符的PMI，计算目标未登录词中所包含的目标字符对目标未登录词构词的贡献。目标字符对目标未登录词的构词贡献计算方法如下，为方便描述，以计算目标字符wi对未登录词Oj的构词贡献为例：

S311，计算目标未登录词词向量。根据步骤S310中获得的目标未登录词中所包含的每个目标字符对目标未登录词构词的贡献以及步骤S308中得到的目标未登录词所包含的目标字符的字符向量，加权计算目标未登录词的词向量。目标未登录词的词向量计算方法如下，为方便描述，以计算未登录词Oi的词向量为例：

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述目标词向量的确定方法的目标词向量的确定装置。图4是根据本申请实施例的一种可选的目标词向量的确定装置的示意图，如图4所示，该装置可以包括：

第一获取模块42，用于获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；

第一确定模块44，用于确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；

第二确定模块46，用于根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

需要说明的是，该实施例中的第一获取模块42可以用于执行本申请实施例中的步骤S202，该实施例中的第一确定模块44可以用于执行本申请实施例中的步骤S204，该实施例中的第二确定模块46可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，可以解决了确定未登录词在目标领域内的词向量效率较低的技术问题，进而达到提高确定未登录词在目标领域内的词向量的效率的技术效果。

可选地，第一获取模块，用于获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；第一确定模块，用于确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；第二确定模块，用于根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，第二确定模块包括：第一确定单元，用于基于目标关系确定第一数量的目标字符的共现次数和领域文本中包括的每个目标字符的字符数量，其中，共现次数用于指示领域文本中包括的任意连续的第二数量的字符中同时出现第一数量的目标字符的次数，第一数量小于第二数量；第二确定单元，用于根据共现次数和目标文本中包括的每个目标字符的字符数量确定每个目标字符的权重值；计算单元，用于使用权重值对字符向量进行赋权计算，得到目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，第二确定单元用于：使用第一公式对第一数量的目标字符的共现次数和每个目标字符的字符数量进行计算，得到第一数量的目标字符之间的点互信息，其中，点互信息用于指示第一数量的目标字符在领域文本中的关联关系；使用第二公式对第一数量的目标字符之间的点互信息进行计算，得到目标未登录词中每个目标字符的权重值。

可选地，第一公式包括：

可选地，第二公式包括：

可选地，第一获取模块包括：第三确定单元，用于确定目标文本所属的目标领域；分词单元，用于使用滑动窗口按照预定顺序对目标文本进行分词，得到目标文本中包括的任意连续的第二数量的字符，其中，滑动窗口的窗口大小为第二数量的字符大小；识别单元，用于使用与目标领域对应的词向量生成模型对目标文本中包含的任意连续的第二数量的字符识别，得到目标领域内的已登录词和目标未登录词。

可选地，装置还包括：第二获取模块，用于在确定目标文本所属的目标领域之前，获取输入的初始文本；处理模块，用于对初始文本进行预处理，得到目标文本，其中，预处理包括对初始文本进行分词处理、去除多余符号处理、字符归一化处理。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述目标词向量的确定方法的电子装置。

图5是根据本申请实施例的一种电子装置的结构框图，如图5所示，该电子装置可以包括：一个或多个(图中仅示出一个)处理器501、存储器503、以及传输装置505，如图5所示，该电子装置还可以包括输入输出设备507。

其中，存储器503可用于存储软件程序以及模块，如本申请实施例中的目标词向量的确定方法和装置对应的程序指令/模块，处理器501通过运行存储在存储器503内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标词向量的确定方法。存储器503可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器503可进一步包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置505用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置505包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置505为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器503用于存储应用程序。

处理器501可以通过传输装置505调用存储器503存储的应用程序，以执行下述步骤：

获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

采用本申请实施例，提供了一种目标词向量的确定方法、装置、存储介质和电子装置的方案。词语是由字符构成的，每个字符都有对应的字符向量，在目标领域的领域文本中包含已登录词和未登录词，已登录词和未登录词也都是由字符组成的，因此可确定出目标领域的目标未登录词中的目标字符在目标领域的领域文本中的已登录词和未登录词中出现的频率，从而能够得到目标未登录词中的每个目标字符与本领域的领域文本之间的目标关系，在知道了目标字符与同领域的领域文本之间的目标关系后，就可以根据目标字符与本领域文本之间的目标关系和每个目标字符的字符向量确定出由目标字符组成的目标未登录词在该领域内的目标字符向量，达到了根据领域文本确定目标未登录词在目标领域内的目标词向量的目的，从而实现了提高确定未登录词在目标领域内的词向量的效率的技术效果，进而解决了确定未登录词在目标领域内的词向量效率较低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等电子设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行目标词向量的确定方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标领域的目标文本中包含的目标未登录词、目标未登录词中包含的多个目标字符以及每个目标字符的字符向量，其中，目标文本中包括已登录词和未登录词，已登录词为目标领域内词向量已知的词，未登录词为目标领域内词向量未知的词；确定目标字符与领域文本之间的目标关系，其中，领域文本为目标领域内的文本，领域文本包括目标文本，领域文本中包括已登录词和未登录词，目标关系用于指示目标字符在已登录词和未登录词中出现的频率；根据目标关系和目标字符的字符向量确定目标文本中包含的目标未登录词在目标领域内的目标词向量。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种目标词向量的确定方法，其特征在于，包括：

获取目标领域的目标文本中包含的目标未登录词、所述目标未登录词中包含的多个目标字符以及每个所述目标字符的字符向量，其中，所述目标文本中包括已登录词和未登录词，所述已登录词为所述目标领域内词向量已知的词，所述未登录词为所述目标领域内词向量未知的词；

确定所述目标字符与领域文本之间的目标关系，其中，所述领域文本为所述目标领域内的文本，所述领域文本包括所述目标文本，所述领域文本中包括所述已登录词和所述未登录词，所述目标关系用于指示所述目标字符在所述已登录词和所述未登录词中出现的频率；

基于所述目标关系确定第一数量的所述目标字符的共现次数和所述领域文本中包括的每个所述目标字符的字符数量，其中，所述共现次数用于指示所述领域文本中包括的任意连续的第二数量的字符中同时出现所述第一数量的所述目标字符的次数，所述第一数量小于所述第二数量；

使用第一公式对所述第一数量的所述目标字符的所述共现次数和每个所述目标字符的所述字符数量进行计算，得到所述第一数量的所述目标字符之间的点互信息，所述点互信息用于指示所述第一数量的所述目标字符在所述领域文本中的关联关系，使用第二公式对所述第一数量的所述目标字符之间的所述点互信息进行计算，得到所述目标未登录词中每个所述目标字符的权重值；

使用所述权重值对所述字符向量进行赋权计算，得到所述目标文本中包含的所述目标未登录词在所述目标领域内的所述目标词向量。

2.根据权利要求1所述的方法，其特征在于，所述第一公式包括：

PMI(wi，wj)为所述目标未登录词中包含的两个所述目标字符wi和wj的点互信息，num(wi，wj)为所述目标字符wi和wj同时出现在所述领域文本中包括的任意连续的所述第二数量的字符中的次数，num(wi)为所述领域文本中包含的所述目标字符wi的数量，num(wj)为所述领域文本中包含的所述目标字符wj的数量，λ为平滑系数。

3.根据权利要求1所述的方法，其特征在于，所述第二公式包括：

O为所述领域文本中的目标未登录词O，f(wj)为与所述目标字符wj共同出现在同一个所述第二数量的字符中的字符的集合，所述f(wk)为与字符wk同时出现在同一个所述第二数量的字符中的字符的集合，PMI(wk，wt)为目标领域文本中的任意字符与目标字符之间的点互关系，weight(O，wj)为目标未登录词O中目标字符wj的权重值。

4.根据权利要求1所述的方法，其特征在于，获取所述目标领域的所述目标文本中包含的所述目标未登录词包括：

确定所述目标文本所属的所述目标领域；

使用滑动窗口按照预定顺序对所述目标文本进行分词，得到所述目标文本中包括的任意连续的第二数量的字符，其中，所述滑动窗口的窗口大小为所述第二数量的字符大小；

使用与所述目标领域对应的词向量生成模型对所述目标文本中包含的任意连续的所述第二数量的字符识别，得到所述目标领域内的所述已登录词和所述目标未登录词。

5.根据权利要求4所述的方法，其特征在于，在确定所述目标文本所属的所述目标领域之前，所述方法还包括：

获取输入的初始文本；

对所述初始文本进行预处理，得到所述目标文本，其中，所述预处理包括对所述初始文本进行分词处理、去除多余符号处理、字符归一化处理。

6.一种目标词向量的确定装置，其特征在于，包括：

第一获取模块，用于获取目标领域的目标文本中包含的目标未登录词、所述目标未登录词中包含的多个目标字符以及每个所述目标字符的字符向量，其中，所述目标文本中包括已登录词和未登录词，所述已登录词为所述目标领域内词向量已知的词，所述未登录词为所述目标领域内词向量未知的词；

第一确定模块，用于确定所述目标字符与领域文本之间的目标关系，其中，所述领域文本为所述目标领域内的文本，所述领域文本包括所述目标文本，所述领域文本中包括所述已登录词和所述未登录词，所述目标关系用于指示所述目标字符在所述已登录词和所述未登录词中出现的频率；

第二确定模块，用于：基于所述目标关系确定第一数量的所述目标字符的共现次数和所述领域文本中包括的每个所述目标字符的字符数量，其中，所述共现次数用于指示所述领域文本中包括的任意连续的第二数量的字符中同时出现所述第一数量的所述目标字符的次数，所述第一数量小于所述第二数量；使用第一公式对所述第一数量的所述目标字符的所述共现次数和每个所述目标字符的所述字符数量进行计算，得到所述第一数量的所述目标字符之间的点互信息，所述点互信息用于指示所述第一数量的所述目标字符在所述领域文本中的关联关系，使用第二公式对所述第一数量的所述目标字符之间的所述点互信息进行计算，得到所述目标未登录词中每个所述目标字符的权重值；使用所述权重值对所述字符向量进行赋权计算，得到所述目标文本中包含的所述目标未登录词在所述目标领域内的所述目标词向量。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至5任一项中所述的方法。

8.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至5任一项中所述的方法。