CN111091001A - 一种词语的词向量的生成方法、装置及设备 - Google Patents

一种词语的词向量的生成方法、装置及设备 Download PDF

Info

Publication number
CN111091001A
CN111091001A CN202010198678.0A CN202010198678A CN111091001A CN 111091001 A CN111091001 A CN 111091001A CN 202010198678 A CN202010198678 A CN 202010198678A CN 111091001 A CN111091001 A CN 111091001A
Authority
CN
China
Prior art keywords
word
vector
similarity
words
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010198678.0A
Other languages
English (en)
Other versions
CN111091001B (zh
Inventor
曹绍升
李厚意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010198678.0A priority Critical patent/CN111091001B/zh
Publication of CN111091001A publication Critical patent/CN111091001A/zh
Application granted granted Critical
Publication of CN111091001B publication Critical patent/CN111091001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本说明书提供一种词语的词向量的生成方法、装置及设备,所述方法包括:将待处理语料进行分词后,分别确定出各个分词后的词语的n元笔画和m元注音字符,进一步初始化各个词语的词向量、笔画向量、注音字符向量,基于词向量、笔画向量、注音字符向量计算出各个词语与上下文词语之间的综合相似度以及与负样例词语之间的综合相似度,基于计算出的综合相似度对各个词语的词向量、笔画向量、注音字符向量进行优化调整。笔画和注音分别表征了词语两个不同方向的特征,将笔画和注音特征相融合,综合了词语尤其是中文词语的特有特征进行词向量的训练优化。

Description

一种词语的词向量的生成方法、装置及设备
技术领域
本说明书属于计算机技术领域,尤其涉及一种词语的词向量的生成方法、装置及设备。
背景技术
随着计算机技术的发展,使用计算机技术处理自然语言的是一项重大突破。计算机和人不同,它很难理解人类语言的语义,在利用计算机处理计算机语言时,需要将自然语言转换为计算机能够识别的语言。一般可以将自然语言文本先进行分词,再将分词获得的各个词语转换成对应的词向量,以便计算机进行后续对自然语言进行分析。如:可以通过词向量计算两个词语之间的综合相似度,进一步确定两个词语的语义关系。因此,词向量算法的准确度就决定了计算机语义理解的能力,而业界研究较多的是英文词向量,中文词向量算法的技术相对比较落后。
发明内容
本说明书实施例的目的在于提供一种词语的词向量的生成方法、装置及设备,提高了词向量确定的准确性。
一方面本说明书实施例提供了一种词语的词向量的生成方法,包括:
对待处理语料进行分词获得所述待处理语料的分词;
确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
另一方面,本说明书提供了一种词语的词向量的生成装置,包括:
分词模块,用于对待处理语料进行分词获得所述待处理语料的分词;
特征提取模块,用于确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
向量初始化模块,用于初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
相似度确定模块,用于根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
向量优化模块,用于根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
还一方面,本说明书提供了一种词语的词向量的生成设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述词语的词向量的生成方法。
又一方面,本说明书实施例提供了一种词语的词向量的生成设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述词语的词向量的生成方法,并根据优化获得的待处理语料各个词语的词向量进行自然语言分析。
本说明书提供的词语的词向量的生成方法、装置、处理设备,将待处理语料进行分词后,分别确定出各个分词后的词语的n元笔画和m元注音字符,进一步初始化各个词语的词向量、笔画向量、注音字符向量,基于词向量、笔画向量、注音字符向量计算出各个词语与上下文词语以及负样例之间的词向量相似度、笔画向量相似度、注音向量相似度,基于词向量相似度、笔画向量相似度、注音向量相似度确定出各个词语与上下文词语之间的综合相似度以及与负样例词语之间的综合相似度,基于计算出的综合相似度对各个词语的词向量、笔画向量、注音字符向量进行优化调整。笔画和注音分别表征了词语两个不同方向的特征,将文本的笔画和注音特征相融合,综合了词语尤其是中文词语的特有特征进行词向量的训练优化,提高了中文文本词向量训练构建的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中词语的词向量的生成方法的流程示意图;
图2是本说明书一个实施例中对于中文文本词向量的训练优化方法流程示意图;
图3是本说明书一个实施例中相似度计算的原理示意图;
图4是本说明书提供的词语的词向量的生成装置一个实施例的模块结构示意图;
图5是本说明书一个实施例中词语的词向量的生成服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
自然语言处理技术可以指通过计算机算法来自动分析人类语言,生成人类语言的技术。比如,机器翻译系统和机器人问答系统等,再比如,智能分析文本,进行文本风控处理(如:色情文本识别等)。计算机在处理自然语言文本时,通常需要基于词向量进行自然语言文本的分析。词向量可以理解为将一个单词(或中文词语)映射到一个固定维度的向量上(比如100维的向量),该向量的数值表征了该单词的语义信息。
例如:猫”和“猫咪”可能会被计算机认为是两个无关的词语,计算机很难刻画这两个词语的语义相似度。而词向量技术恰好解决了这一难题,可以为“猫”和“猫咪”分别生成一个向量,计算出这两个词语的语义相似度(0~1之间的实数),比如相似度为0.95,就说明“猫”和“猫咪”是语义很接近的两个词语。如何能够确定出比较准确的词向量,是自然语言技术的基础和关键。
本说明书实施例提供一种词语的词向量的生成方法,可以对待处理语料进行分词后,初始化各个分词后的词语的词向量、笔画向量、注音字符向量。基于初始化的各个向量计算各个词语与其上下文词语之间的综合相似度以及与负样例词语之间的综合相似度,并基于计算出的综合相似度对待处理语料中的各个词语进行向量优化,使得确定出的词向量更加准确,更符合语境需求。
本说明书中词语的词向量的生成方法可以应用在客户端或服务器中,客户端可以是智能手机、平板电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)、智能车载设备等电子设备。
图1是本说明书一个实施例中词语的词向量的生成方法的流程示意图,如图1所示,本说明书一个实施例中提供的词语的词向量的生成方法可以包括:
步骤102、对待处理语料进行分词获得所述待处理语料的分词。
在具体的实施过程中,待处理语料可以理解为词向量生成准备的语料、文本等,可以是模型训练时的样本数据,也可以是实际进行自然语言处理时的目标文本,如:可以是用户输入的提问信息、搜索信息、评论、留言等,或者从用户常用的语言中选取的文本,也可以是从某文章中截取的文本等。本说明书实施例中的待处理语料可以是中文文本。可以利用分词算法对待处理语料进行分词处理,获得待处理语料的分词,分词中可以包括待处理语料分词后的各个词语,如:可以将分词中的各个词语构建为词汇列表。分词可以理解为根据句子的结构或词性,将语句切分为多个词语。如:“花呗怎么”分为“花呗”和“怎么”两个词语。在对待处理语料进行分词处理时,可以将分词后获得的各个词语进行归一化处理,归一化可以理解为将提问输入信息转换为指定的格式的文本,如:可以删除语句中的标点符号,删除出现频率比较低的词语等,方便后续处理。
如:可以对分词后获得的分词进行扫描,统计各个词语出现的次数,将出现次数小于预设次数的词语删除。出现次数较少的词语可能对语义分析等的作用不太大,并且后续对词语进行处理的次数也比较少,会给词向量优化训练结果的可信度带来不利影响。可以将这类词删除后,可以减少后续数据处理的数据量,并且不会影响后续的自然语言处理,还可以提高词向量优化结果的可信度和准确性。还可以将需要进行词向量生成的词语保留,其他不需要进行词向量生成的删除。
步骤104、确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数。
在具体的实施过程中,获得待处理语料的分词后,可以依次确定出分词中各个词语的n元笔画和m元注音字符,其中n、m为正整数,具体取值可以根据实际需要进行选择,其中,n、m可以分别只取一个数值、也可以分别取多个数值,并且n、m可以相等也可以不相等,本说明书实施例不作具体限定。例如:对于中文汉字,笔画可以包括“横竖撇捺折”等,n元笔画可以指一个汉字或中文词语连续的n个笔画。比如“珍”字,其3元笔画为:“横横竖”,“横竖提”,“竖提撇”等,4元笔画为:“横横竖横”,“横竖提撇”等等。当n取某一个特定的数值,n元笔画可能恰好为该汉字的偏旁部首,当n取值恰好为汉字的总笔画数时,n元笔画恰好为该汉字。
本说明书一些实施例中的注音字符可以为汉语拼音字符,对于每个中文词语,都会对应一个或多个中文汉字,每个汉字又会对应一个汉字拼音字符序列,其中包括字符“a-z”。词语拼音的m元注音字符可以指该词语所包含汉字的拼音序列中连续的m个字符,比如“人民”字,该汉字拼音字符序列为:“renmin”,其3元注音字符为:“ren”,“enm”,“nmi”等;其4元注音字符为:“renm”,“enmi”等;其5元注音字符为:“renmi”和“enmin”。当m取值恰好为其词语拼音序列的长度时,m元字符恰好为该词语的拼音序列。
在本说明书实施例中,为了便于计算机处理,n元笔画可以用指定的代码进行表示。比如,可以将不同的笔画分别用一个不同的数字表示,则n元笔画相应地可以表示为数字串。m元注音字符也可以采用数字表示,具体可以根据实际需要进行设置,本说明书实施例不作具体限定。
在实际应用时,可以将获得的分词中各个词语的n元笔画和m元注音字符分别构建为n元笔画表、m元注音字符表,还可以根据n元笔画、m元注音字符与各个词语之间的映射关系,构建出词语-n元笔画映射表,词语-m元注音映射表,以方便后续查找或修改等。
步骤106、初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量。
在具体的实施过程中,确定出待处理语料的分词以及各个词语对应的n元笔画和m元注音字符后,可以进行向量初始化,获得各个词语初始化的词向量、笔画向量、注音字符向量。一个词语的笔画向量和注音字符向量可以有一个或多个,其中,各个词语的词向量、笔画向量、注音字符向量的维度可以是相同的,以便于后续相似度的计算。可以采用随机初始化的方式或者按照指定概率分布初始化的方式或其他初始化方式,初始化各个词语的词向量,以及各词语对应的各n元笔画的笔画向量、m元注音字符的注音字符向量。此处的各个向量均可以理解为将文本映射到一个固定维度的向量上,该向量的数值表征了一定的语义信息。
另外,若之前已经根据其他语料或文本等,训练获得过某些词对应的词向量、笔画向量、注音字符向量,则在后续的语料训练这些词对应的词向量、笔画向量、注音字符向量,可以不再重新初始化这些词对应的词向量、笔画向量、注音字符向量,可以利用之前的训练结果,将之前训练获得的词向量、笔画向量、注音字符向量直接作为词语的初始化的向量,再进行后续的训练即可。
步骤108、根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定。
在具体的实施过程中,可以基于各个词语对应的词向量、笔画向量、注音字符向量,计算各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度。其中,各个词语的上下文词语可以为待处理语料分词后的分词中与各词语相邻的词语,可以根据待处理语料语句本身的顺序确定,数量可以是一个或多个。如:可以依据待处理语料本身的语句顺序,将分词后的各个词语按序存储在词汇表中,各个词语在词汇表中前后指定数量个词语可以作为该词语的上下文词语。例如:待处理语料为“如何进行垃圾分类”,分词后获得的分词为:“如何”、“进行”、“垃圾”、“分类”,可以将词语前后1位词语作为上下文词语,则“垃圾”这个词的上下文词语为“进行”和“分类”,若设置词语前后2位词语作为上下文词语,则“垃圾”这个词的上下文词语为“如何”、“进行”和“分类”。负样例词语可以理解为一种负样本词语,可以从待处理语料中选择指定数量个(一个或多个)词语作为负样例词语,或者将待处理语料中指定位置处的词语作为负样例词语如:待处理文本中每句话的句尾一词作为负样例词语,或者也可以从其他文本语料中选择若干词语作为负样例词语,本说明书实施例不作具体限定。文本相似度可以理解为两个文本之间的相似度,相似度越高可以认为两个文本的含义越相近。
其中,文本相似度的计算方法可以根据实际使用情况进行选择,如:可以选择机器学习模型计算两个词语之间的相似度,如:神经网络算法(如:LSTM(Long Short-TermMemory,长短期记忆网络)模型等)。本说明书实施例中两个文本之间的综合相似度可以基于词向量相似度、笔画向量相似度、注音向量相似度确定,其中,词向量相似度可以理解为从词向量的角度计算出目标词语和上下文词语之间的相似度,笔画向量相似度可以理解为从笔画向量的角度计算出目标词语与上下文词语之间的相似度,注音向量相似度可以理解为从注音向量相似度的角度计算出目标词语与上下文词语之间的相似度。例如:将各个词语对应的词向量、笔画向量、注音字符向量,计算各个词语与对应的上下文词语的向量、笔画向量、注音字符向量输入到预先训练构建的相似度模型中,由模型计算出各个词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度以及所述分词中各个词语与负样例词语之间的词向量相似度、笔画向量相似度、注音向量相似度。根据计算获得的各个目标词语的词向量相似度、笔画向量相似度、注音向量相似度,综合确定出各个目标词语与对应的上下文词语之间的综合相似度。或者也可以采用向量的夹角余弦计算相似度或者采用其他的方式计算相似度,本说明书实施例不作具体限定。步骤110、根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
确定出各个词语与其上下文词语之间的综合相似度以及各个词语与负样例词语之间的综合相似度后,可以基于计算出的综合相似度对各个词语的词向量、n元笔画的笔画向量、m元注音字符的注音字符向量进行调整和优化,使得各个词语的词向量、笔画向量、注音字符向量不断逼近用户想要的数值,如:通过向量优化,可以使得语义相近的词语计算出的综合相似度高,语义不同的词语计算出的综合相似度低,为后续自然语言的分析提供数据基础。或者通过不断的调整优化使得各个词语与上下文词语之间的综合相似度最高,即相邻词语之间的词向量最相似。
向量的优化调整可以采用梯度下降法或其他优化算法,本说明书实施例不作具体限定。还可以基于优化后的向量进行迭代优化,直至优化出的向量满足精度要求。
本说明书实施例提供的词语的词向量的生成方法,将待处理语料进行分词后,分别确定出各个分词后的词语的n元笔画和m元注音字符,进一步初始化各个词语的词向量、笔画向量、注音字符向量,基于初始化的词向量、笔画向量、注音字符向量计算出各个词语与上下文词语以及以及负样例之间的词向量相似度、笔画向量相似度、注音向量相似度,基于词向量相似度、笔画向量相似度、注音向量相似度确定出各个词语与上下文词语之间的综合相似度以及各个词语与负样例词语之间的综合相似度,基于计算出的综合相似度对各个词语的词向量、笔画向量、注音字符向量进行优化调整。笔画和注音分别表征了词语两个不同方向的特征,将笔画和注音特征相融合,综合了词语尤其针对中文词语的特有特征进行词向量的训练优化,提高了词向量训练构建的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定各个词语与对应的上下文词语之间的综合相似度,包括:
对所述分词中各个词语进行遍历,依次将所述分词中各个词语中作为目标词语,并确定所述目标词语在所述分词中对应的上下文词语;其中,所述分词中各个词语之间的排序与所述待处理语料中各词语的排序一致;
根据各个所述目标词语对应的词向量、笔画向量、注音字符向量,以及各个目标词语对应的上下文词语对应的词向量,计算各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度;
根据所述词向量相似度、所述笔画向量相似度、所述注音向量相似度,确定各个目标词语与对应的上下文词语之间的综合相似度。
在具体的实施过程中,在计算待处理语料的各个词语与上下文词语之间的综合相似度时,可以遍历待处理语料的分词,依次将分词中每一个词语作为目标词语,并确定各个目标词语在分词中的上下文词语,其中,待处理语料的分词中各个词语与待处理语料中各词语的排序一致。上下文词语的含义可以参考上述实施例的记载,此处不再赘述。可以基于各个目标词语对应的词向量和目标词语的上下文词语的词向量,计算出各个目标词语与对应的上下文词语之间的词向量相似度,再利用各个目标词语的笔画向量和目标词语的上下文词语的词向量,计算出各个目标词语与对应的上下文词语之间的笔画向量相似度,再利用各个目标词语的注音字符向量和目标词语的上下文词语的词向量,计算出各个目标词语与对应的上下文词语之间的注音向量相似度。依次计算出各个词语与对应的上下文词语的词向量相似度、笔画向量相似度、注音向量相似度。
其中,若目标词语对应有多个n元笔画和多个m元注音字符,那么目标词语可能对应有多个笔画向量和多个注音字符向量。在计算目标词语与对应的上下文词语之间的笔画向量相似度、注音向量相似度时,可以选择其中一个笔画向量、注音字符向量计算笔画向量相似度、注音向量相似度,也可以选择目标词语对应的几个或全部笔画向量、注音字符向量综合计算笔画向量相似度、注音向量相似度,具体可以根据实际需要进行设置,本说明书实施例不作具体限定。本说明书实施提供了一种级联式的词语相似度计算方式,综合了词语的形和音的特征,计算出待处理语料中各个词语与对应的上下文词语之间的综合相似度,提高了词语间相似度确定的准确性,为后续向量的优化奠定了准确的数据基础。
例如:待处理语料为“如何进行垃圾分类”,分词后获得的分词为:“如何”、“进行”、“垃圾”、“分类”,依次将“如何”、“进行”、“垃圾”、“分类”这四个词语作为目标词语,并分别确定出这是个词语对应的上下文词语。如:可以将词语前后1位词语作为上下文词语,将“如何”作为目标词语时,对应的上下文词语为“进行”,再将“进行”作为目标词语,对应的上下文词语为“如何”和“垃圾”,再将“垃圾”作为目标词语,对应的上下文词语为“进行”和“分类”,最后将“分类”作为目标词语,对应的上下文词语为“垃圾”。再根据各个目标词语对应的词向量、笔画向量、注音字符向量,以及各个目标词语对应的上下文词语对应的词向量,计算各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度。其中,也可以确定一个目标词语和对应的上下文词语后,就计算该目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度,计算完成后,再将其他的词语为目标词语,并确定该目标词语的上下文词语,计算对应的综合相似度,直至待处理语料的分词中各个词语遍历完成。
如:可以对分词后的分词进行遍历,分别对分词后的分词中的每个词语执行:
确定该词语在分词后的分词中的一个或多个上下文词语;
分别根据每个所述上下文词语,执行:
根据该词语对应的词向量、各n元笔画的笔画向量、各m元注音字符的注音字符向量,以及该上下文词语的词向量,确定该词语与该上下文词语之间的综合相似度;其中,可以根据该词语与该上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度,确定该词语与该上下文词语之间的综合相似度;
根据该词语与该上下文词语的综合相似度,对该上下文词语的词向量、该词语对应的词向量、各n元笔画的笔画向量、各m元注音字符的注音字符向量进行更新优化。
其中,利用各个目标词语的词向量相似度、笔画向量相似度、注音向量相似度,综合确定出各个目标词语与对应的上下文词语之间的综合相似度的方法可以根据实际需要进行选择,如:可以利用机器学习模型,综合确定出各个目标词语与对应的上下文词语之间的综合相似度。也可以利用专家决策算法,基于目标词语的词向量相似度、笔画向量相似度、注音向量相似度,综合确定出各个目标词语与对应的上下文词语之间的综合相似度。也可以预先通过数学统计、模型训练等确定出词向量相似度、笔画向量相似度、注音向量相似度对目标词语与上下文词语之间的综合相似度之间的影响,构建出相似度计算函数。
本说明书一些实施例中,可以采用下述方法确定出各个目标词语与对应的上下文词语之间的综合相似度:
预先设置词向量权重、笔画权重和注音权重;
根据所述词向量权重、所述笔画权重、所述注音权重,计算所述词向量相似度、所述笔画向量相似度、所述注音向量相似度的加权平均值,根据所述加权平均值确定出各个目标词语与对应的上下文词语之间的综合相似度。
在具体的实施过程中,可以根据专家经验或模型训练等,确定出词向量相似度、笔画向量相似度、注音向量相似度对目标词语与上下文词语之间的综合相似度之间的影响程度,进一步确定出词向量权重、笔画权重和注音权重,词向量权重、笔画权重和注音权重可以取0-1之间的数值,影响越大,权重值越大。计算词向量权重与词向量相似度的乘积、笔画权重与笔画向量相似度的乘积、注音权重与注音向量相似度之间的乘积,可以将三个乘积相加,确定出三个相似度的加权平均值,作为各个目标词语与对应的上下文词语之间的综合相似度。
其中,词向量权重、笔画权重和注音权重的取值大小可以根据实际需要或经验确定,本说明书实施例不作具体限定。
本说明书实施例通过预先设置词向量权重、笔画权重和注音权重,再通过加权平均的方式,综合了各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度,将词语尤其是中文文本的笔画和注音特征相融合,确定出各个目标词语与对应的上下文词语之间的综合相似度。综合了词语本身、词语的笔画、注音字符,提高了词语之间相似度计算的准确性,为后续文本词向量的优化训练奠定了数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述目标词语与对应的上下文词语之间的词向量相似度的计算方法包括:
将所述目标词语的词向量与对应的上下文词语的词向量之间的向量点积值,作为所述目标词语与对应的上下文词语之间的词向量相似度。
在具体的实施过程中,本说明书实施例提供了一种词向量相似度的计算方式,可以根据所述目标词语的词向量与对应的上下文词语的词向量之间的向量点积值,确定所述目标词语与对应的上下文词语之间的词向量相似度。如:直接将目标词语的词向量与对应的上下文词语的词向量之间的向量点积值作为目标词语与对应的上下文词语之间的词向量相似度,或者将目标词语的词向量与对应的上下文词语的词向量之间的向量点积值的按比例缩放或加减一定的系数后,获得目标词语与对应的上下文词语之间的词向量相似度,当然还可以有其他的计算方式,本说明书实施例不作具体限定,本说明书实施例提供的词向量相似度计算方法简单,计算效率快。
本说明书实施例提供了一种笔画向量相似度的计算方式,可以根据所述目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的笔画向量相似度。
在具体的实施过程中,一个目标词语的n元笔画对应的笔画向量可能不止一个,可以根据目标词语的多个笔画向量分别与对应的上下文词语的词向量之间向量点积值,确定目标词语与对应的上下文词语之间的笔画向量相似度。例如:可以先计算目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积之和,再计算目标词语各个笔画向量与对应的上下文词语的词向量之间向量点积的平均值,获得目标词语与对应的上下文词语之间的笔画向量相似度。当然,也可以直接将目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积的和、方差、最大值、中位数、最小值等作为目标词语与对应的上下文词语之间的笔画向量相似度,本说明书实施例不作具体限定。
本说明书实施例提供的笔画向量相似度计算方法简单,计算效率快,考虑了词语的笔画特征对词语之间的相似度的影响,为后续词语间相似度的计算奠定了数据基础。
本说明书实施例还提供了一种注音向量相似度的计算方式,可以根据所述目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的注音向量相似度。
在具体的实施过程中,一个目标词语的m元注音字符对应的注音字符向量可能不止一个,可以先计算目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积之和,再计算目标词语各个注音字符向量与对应的上下文词语的词向量之间向量点积的平均值,获得目标词语与对应的上下文词语之间的注音向量相似度。当然,也可以直接将目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积的和、方差、最大值、中位数、最小值等作为目标词语与对应的上下文词语之间的注音向量相似度,本说明书实施例不作具体限定。
本说明书实施例提供的注音向量相似度计算方法简单,计算效率快,考虑了词语的拼音特征对词语之间的综合相似度的影响,为后续词语间相似度的计算奠定了数据基础。
在上述实施例的基础上,本说明书一些实施例中,还提供了关于上下文词语确定的方法:
在所述分词中,以所述目标词语为中心,向左和/或向右滑动指定数量个词语的距离,建立滑动窗口;
遍历所述滑动窗口中的词语,依次将所述滑动窗口中所述目标词语以外的词语确定为所述目标词语对应的上下文词语。
在具体的实施过程中,可以在分词后的分词中,先确定出目标词语,再以目标词语为中心,向左和/或向右滑动指定数量(可以根据实际需要设置)个词语的距离,建立出滑动窗口。当然,对于分词中的第一个词语和最后一个词语,可能只有下文词语或上文词语。通过遍历该滑动窗口依次将滑动窗口中该目标词语以外的各个词语确定为该目标词语的上下文词语。再基于确定的目标词语、上下文词语以及对应的初始化的向量,计算出目标词语与对应的上下文词语的综合相似度,进一步基于计算出的综合相似度对初始化的向量进行调整优化。再选取下一个上下文词语进行相同的操作,计算出对应的综合相似度,并基于综合相似度对目标词语的词向量等进行优化调整。
本说明书实施例,通过以目标词语为中心构建滑动窗口,依次确定出目标词语的上下文词语,使得确定出的上下文词语与目标词语关联性比较大,加快了词向量的优化速度。
在上述实施例的基础上,本说明书一些实施例中,所述根据所述各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,包括:
从所述分词中选取预设数量个词语,作为负样例词语;
确定所述目标词语与各个所述负样例词语之间的综合相似度;
根据指定的损失函数、所述目标词语与对应的上下文词语之间的综合相似度,以及所述目标词语与各个所述负样例词语之间的综合相似度,确定所述目标词语对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量、所述目标词语的词向量、所述目标词语对应的笔画向量、注音字符向量进行训练更新,直至满足训练条件,生成所述目标词语对应的目标词向量。
在具体的实施过程中,负样例词语可以理解为与上下文词语进行对比的负样本词语。在计算出目标词语与各个上下文词语之间的综合相似度时,可以在分词后的词汇列表中选择预设数量个词语作为负样例词语。如:可以参考上述实施例中记载的负样例词语的选取方式选择预设数量的负样例词语,也可以严格地选择非上下文词作为负样例词语,或者也可以构建负样例词语库,从负样例词语库中选取预设数量个词语。选取出负样例词语后,可以采用上述实施例的方法计算出目标词语与各个负样例词语之间的综合相似度,如:可以根据目标词语的词向量、笔画向量、注音字符向量,以及各个负样例词语的词向量,计算各个目标词语与各个负样例词语之间的词向量相似度、笔画向量相似度、注音向量相似度,进一步计算出目标词语与各个负样例词语之间的综合相似度。其中各个相似度的具体计算方式,参考上述实施例的记载,此处不再赘述。其中,每个目标词语可以对应有不同的负样例词语,当然,若为了加快计算效率,也可以将各个目标词语的负样例词语设置为相同的词语。
确定目标词语与各个负样例词语之间的综合相似度后,可以根据指定的损失函数、目标词语与对应的上下文词语之间的综合相似度,以及目标词语与各个负样例词语之间的综合相似度,确定目标词语对应的损失表征值。再根据损失表征值,对上下文词的词向量、目标词语的词向量、目标词语对应的笔画向量、注音字符向量进行调整优化,直至满足训练条件如:目标词语与上下文词语的综合相似度最大,或者目标词语与上下文词语的综合相似度满足预设阈值等。最终可以获得各个目标词语的目标词向量。
其中,损失函数可以用来度量预测错误程度,对于一个机器学习算法,可以提前定义一个损失函数,来判断这个算法是否是最优的,而后面不断的优化求梯度下降,使得损失函数最小,可以使得算法达到意义上的最优。损失函数的参数可以以上述目标词语与上下文词语之间的综合相似度和目标词语与负样例词语之间的综合相似度作为参数,具体的损失函数表达式本说明书实施例并不做限定。损失表征值可以用于衡量当前的向量值与训练目标之间的误差程度。
利用损失函数和损失表征值,可以实现对词向量、笔画向量、注音字符向量的误差程度的修正。当采用神经网络进行词向量的训练优化时,这种修正可以基于反向传播和梯度下降法实现。如:可以根据计算获得的损失表征值,确定损失函数对应的梯度;根据计算获得的梯度,对上下文词语的词向量、目标词语的词向量、目标词语对应的笔画向量、注音字符向量进行调整。在本说明书实施例中,对词向量、笔画向量、注音字符向量的训练过程可以是基于对待处理语料分词后获得的分词中的至少部分词迭代进行的,从而可以使词向量笔画向量、注音字符向量逐渐地收敛,直至完成训练,得到最优的词向量、笔画向量、注音字符向量。
本说明书实施例,在计算出待处理语料中各个词语与上下文词语之间的综合相似度后,利用损失函数实现对各个词语的对应的词向量、笔画向量、注音字符向量调整优化,综合了词语的笔画和注音特征,进行向量的训练优化,实现词向量优化的全局最优效果,提高了分词处理中向量的准确度,为后续自然语言的分析处理奠定了数据基础。
图2是本说明书一个实施例中对于中文文本词向量的训练优化方法流程示意图,下面结合图2具体介绍本说明书实施例中词向量的训练方法:
1)、使用分词工具对中文语料进行分词,逐句扫描所有训练数据,统计所有出现过的词语建立词汇表,删除词语出现次数小于b次的词语(b为预先设定的超参数);跳转步骤2)。
2)、逐一扫描词汇表,提取每一个词语对应的n元笔画,建立n元笔画表,以及词语-n元笔画的映射表;同理,建立m元拼音字符(即上述实施例中的注音字符)表,以及词语-m元拼音的映射表;跳转步骤3)。
3)、针对词汇表中每个词语都建立两个维度为d的词向量(词语的词向量和上下文词语的词向量),对n元笔画表中的每个n元笔画都分别建立一个维度也为d的笔画向量;同理,也建立拼音字符向量(即上述实施例中的注音字符向量),随机初始化所有向量的数值;跳转步骤4)。
4)、从完成分词的中文训练语料中,从第一个词语开始逐一滑动,每次选择一个词语作为“当前词语w”(即上述实施例中的目标词语),若w遍历过整个语料所有词语,则结束;否则跳转步骤5)。
5)、以当前词语为中心,向两侧滑动k个词语建立窗口,从窗口内的第一个词语到最后一个词语,每次选择一个作为“上下文词语c”,若c遍历过窗口内的所有词语,则跳转4);否则,跳转步骤6)。
6)、对于当前词语,根据步骤2)中的词语-n元笔画映射表,找到其对应的所有n元笔画(同理,n元拼音字符),按照下面方法计算当前词语w与上下文词语c之间的综合相似度:
Figure DEST_PATH_IMAGE002AAA
其中,公式中S可以表示步骤2)中建立的n元笔画表,S(w)表示步骤2)中词语-n元笔画映射表里词语w所对应的n元笔画集合,|S(w)|可以表示集合S(w)中所有元素的数量,qs表示集合S(w)中的元素(即某个n元笔画);同理,Y(w)表示步骤2)中词语-n元拼音字符映射表里词语w所对应的m元拼音字符集合,|Y(w)|可以表示集合Y(w)中所有元素的数量,qy表示集合Y(w)中的元素(即某个m元拼音字符)。sim(w,c)表示当前词语w与上下文单词c的相似度得分;
Figure 832256DEST_PATH_IMAGE003
表示n元笔画向量qs与上下文词语c的向量点积运算,而
Figure 608451DEST_PATH_IMAGE004
表示m元拼音向量qy与上下文词语c的向量点积运算,
Figure 388189DEST_PATH_IMAGE005
表示词语w与上下文词语c的向量点积运算。其中,γy和γs为算法提前预设定的超参数,值域范围在0~1之间,可以表示权重参数,具体取值可以根据实际需要选择,本说明书实施例不作具体限定。图3是本说明书一个实施例中相似度计算的原理示意图,图3所示的内容即为这一过程,图3中的softmax可以表示神经网络模型中回归分类函数。如图3所示,本说明书实施例中可以利用神经网络算法进行向量相似度的计算以及向量的优化,神经网络的层次可以依据实际需要设置,图3是示意图,示意出两层神经网络,本说明书实施例不作具体限定。跳转步骤7)。
7)、随机抽取λ个词语作为“负样例词语”,并且按照公式(2)计算损失得分l(w,c):
Figure 783398DEST_PATH_IMAGE006
其中,log是对数函数,c’是随机抽取的负样例词语,而
Figure 863349DEST_PATH_IMAGE007
是指随机抽取的负样例词语c’满足概率分布p(V)的情况下,表达式x的期望值,sim(.)表示综合相似度,σ(.)是神经网络激励函数:
Figure 685812DEST_PATH_IMAGE008
其中,若x是一个实数,则
Figure 952845DEST_PATH_IMAGE009
也是一个实数。
再根据l(w,c)的值计算出梯度,基于梯度更新词向量
Figure 214062DEST_PATH_IMAGE010
、上下文词语的向量
Figure 882941DEST_PATH_IMAGE011
n元笔画向量
Figure 876305DEST_PATH_IMAGE012
m元拼音字符向量
Figure 492618DEST_PATH_IMAGE013
;跳转步骤5)。
需要说明的是,上述各个公式可以根据实际使用需要进行调整或更换,本说明书实施例不作具体限定。
本说明书实施例提出了一种级联式的中文词向量构建训练方法,可以充分利用中文词语的笔画和拼音信息,并且在词向量训练阶段,两种信息会交互,实现全局最优的效果,提高了词向量确定的准确性,为后续自然语言的分析处理奠定了数据基础。
当然对于类似中文词语的带有注音和笔画特征的自然语言的词向量的训练也可以采用本说明书实施例提供的方法。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。
基于上述所述的词语的词向量的生成方法,本说明书一个或多个实施例还提供一种词语的词向量的生成装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图4是本说明书提供的词语的词向量的生成装置一个实施例的模块结构示意图,如图4所示,本说明书中提供的词语的词向量的生成装置可以包括:分词模块41、特征提取模块42、向量初始化模块43、相似度确定模块44、向量优化模块45,其中:
分词模块41,可以用于对待处理语料进行分词获得所述待处理语料的分词;
特征提取模块42,可以用于确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
向量初始化模块43,可以用于初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
相似度确定模块44,可以用于根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
向量优化模块45,可以用于根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
本说明书实施例提供的词语的词向量的生成装置,将待处理语料进行分词后,分别确定出各个分词后的词语的n元笔画和m元注音字符,进一步初始化各个词语的词向量、笔画向量、注音字符向量,基于词向量、笔画向量、注音字符向量计算出各个词语与上下文词语之间的综合相似度以及各个词语与负样例词语之间的综合相似度,基于计算出的综合相似度对各个词语的词向量、笔画向量、注音字符向量进行优化调整。笔画和注音分别表征了词语两个不同方向的特征,结合词语本身、笔画、注音特征,综合了词语如:中文词语的特有特征进行词向量的训练优化,提高了词语尤其是中文文本词向量训练构建的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述相似度确定模块具体用于:
对所述分词中各个词语进行遍历,依次将所述分词中各个词语中作为目标词语,并确定所述目标词语在所述分词中对应的上下文词语;其中,所述分词中各个词语之间的排序与所述待处理语料中各词语的排序一致;
根据各个所述目标词语对应的词向量、笔画向量、注音字符向量,以及各个目标词语对应的上下文词语对应的词向量,计算各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度;
根据所述词向量相似度、所述笔画向量相似度、所述注音向量相似度,确定各个目标词语与对应的上下文词语之间的综合相似度。
本说明书实施例,提供了一种级联式的词语相似度计算方式,综合了词语的形和音的特征,提高了词语间相似度确定的准确性,为后续向量的优化奠定了准确的数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述相似度确定模块具体用于:
根据所述目标词语的词向量与对应的上下文词语的词向量之间的向量点积值,确定所述目标词语与对应的上下文词语之间的词向量相似度;
根据所述目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的笔画向量相似度;
根据所述目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的注音向量相似度。
本说明书实施例提供了一种词向量相似度、笔画向量相似度、注音向量相似度的计算方式,采用向量点积的方式计算目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度,方法简单,计算效率快。
在上述实施例的基础上,本说明书一些实施例中,所述相似度确定模块具体用于:
在所述分词中,以所述目标词语为中心,向左和/或向右滑动指定数量个词语的距离,建立滑动窗口;
遍历所述滑动窗口中的词语,依次将所述滑动窗口中所述目标词语以外的词语确定为所述目标词语对应的上下文词语。
本说明书实施例,通过以目标词语为中心构建滑动窗口,依次确定出目标词语的上下文词语,使得确定出的上下文词语与目标词语关联性比较大,加快了词向量的优化速度。
在上述实施例的基础上,本说明书一些实施例中,所述向量优化模块具体用于:
从所述分词中选取预设数量个词语,作为负样例词语;
确定所述目标词语与各个所述负样例词语之间的综合相似度;
根据指定的损失函数、所述目标词语与对应的上下文词语之间的综合相似度,以及所述目标词语与各个所述负样例词语之间的综合相似度,确定所述目标词语对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量、所述目标词语的词向量、所述目标词语对应的笔画向量、注音字符向量进行训练更新,直至满足训练条件,生成所述目标词语对应的目标词向量。
本说明书实施例,在计算出待处理语料中各个词语与上下文词语之间的综合相似度后,利用损失函数实现对各个词语的对应的词向量、笔画向量、注音字符向量调整优化,综合了词语的笔画和注音特征,进行向量的训练优化,实现词向量优化的全局最优效果,提高了分词处理中向量的准确度,为后续自然语言的分析处理奠定了数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述相似度确定模块具体用于:
预先设置词向量权重、笔画权重和注音权重;
根据所述词向量权重、所述笔画权重、所述注音权重,计算所述词向量相似度、所述笔画向量相似度、所述注音向量相似度的加权平均值,根据所述加权平均值确定出各个目标词语与对应的上下文词语之间的综合相似度。
本说明书实施例,通过预先设置词向量权重、笔画权重和注音权重,再通过加权平均的方式,综合了各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度,将文本的笔画和注音特征相融合,确定出各个目标词语与对应的上下文词语之间的综合相似度。综合了词语本身、词语的笔画、注音字符,提高了词语之间相似度计算的准确性,为后续词向量的优化训练奠定了数据基础。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种词语的词向量的生成设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例中词语的词向量的生成方法,如:
对待处理语料进行分词获得所述待处理语料的分词;
确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
本说明书实施例还提供一种中文文本处理设备,可以用于对具有注音、笔画特征的文本如中文文本进行自然语言分析,该处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例中词语的词向量的生成方法,如:
对待处理语料进行分词获得所述待处理语料的分词;
确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
所述处理器还用于根据优化获得的待处理语料各个词语的词向量进行自然语言分析,如:对中文文本进行自然语言分析。如:可以基于训练获得的待处理语料分词后各个词语的词向量,获得用户输入的语音文本、文字文本或视频文本等,对输入的文本进行语义分析,确定出用户输入的文本的含义,如:可以应用于智能机器人问答、搜索引擎、翻译、评论或留言分析等需要对自然语言进行分析处理的场景中。
需要说明的,上述所述的处理设备,根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书提供的词语的词向量的生成装置或处理设备,也可以应用在多种数据分析处理系统中。所述系统或装置或处理设备可以包括上述实施例中任意一个词语的词向量的生成装置。所述的系统或装置或处理设备可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图5是本说明书一个实施例中词语的词向量的生成服务器的硬件结构框图,该服务器可以是上述实施例中的词语的词向量的生成装置或系统。如图5所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图5中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图5所示不同的配置。
非易失性存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的词语的词向量的生成方法对应的程序指令/模块,处理器100通过运行存储在非易失性存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,非易失性存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的上述词语的词向量的生成方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程资源数据更新设备的处理器以产生一个机器,使得通过计算机或其他可编程资源数据更新设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程资源数据更新设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (14)

1.一种词语的词向量的生成方法,包括:
对待处理语料进行分词获得所述待处理语料的分词;
确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;
根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
2.如权利要求1所述的方法,所述根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定各个词语与对应的上下文词语之间的综合相似度,包括:
对所述分词中各个词语进行遍历,依次将所述分词中各个词语中作为目标词语,并确定所述目标词语在所述分词中对应的上下文词语;其中,所述分词中各个词语之间的排序与所述待处理语料中各词语的排序一致;
根据各个所述目标词语对应的词向量、笔画向量、注音字符向量,以及各个目标词语对应的上下文词语对应的词向量,计算各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度;
根据所述词向量相似度、所述笔画向量相似度、所述注音向量相似度,确定各个目标词语与对应的上下文词语之间的综合相似度。
3.如权利要求2所述的方法,所述目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度的计算方法包括:
根据所述目标词语的词向量与对应的上下文词语的词向量之间的向量点积值,确定所述目标词语与对应的上下文词语之间的词向量相似度;
根据所述目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的笔画向量相似度;
根据所述目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的注音向量相似度。
4.如权利要求2所述的方法,所述确定所述目标词语在所述分词中对应的上下文词语,包括:
在所述分词中,以所述目标词语为中心,向左和/或向右滑动指定数量个词语的距离,建立滑动窗口;
遍历所述滑动窗口中的词语,依次将所述滑动窗口中所述目标词语以外的词语确定为所述目标词语对应的上下文词语。
5.如权利要求2所述的方法,所述根据所述各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,包括:
从所述分词中选取预设数量个词语,作为负样例词语;
确定所述目标词语与各个所述负样例词语之间的综合相似度;
根据指定的损失函数、所述目标词语与对应的上下文词语之间的综合相似度,以及所述目标词语与各个所述负样例词语之间的综合相似度,确定所述目标词语对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量、所述目标词语的词向量、所述目标词语对应的笔画向量、注音字符向量进行训练更新,直至满足训练条件,生成所述目标词语对应的目标词向量。
6.如权利要求2所述的方法,所述根据所述词向量相似度、所述笔画向量相似度、所述注音向量相似度,确定各个目标词语与对应的上下文词语之间的综合相似度,包括:
预先设置词向量权重、笔画权重和注音权重;
根据所述词向量权重、所述笔画权重、所述注音权重,计算所述词向量相似度、所述笔画向量相似度、所述注音向量相似度的加权平均值,根据所述加权平均值确定出各个目标词语与应的上下文词语之间的综合相似度。
7.一种词语的词向量的生成装置,包括:
分词模块,用于对待处理语料进行分词获得所述待处理语料的分词;
特征提取模块,用于确定所述分词中各词语的n元笔画和m元注音字符,其中,所述n元笔画表征其对应的词语的连续n个笔画,所述m元注音字符表征对应的词语的连续m个注音字符,n、m为正整数;
向量初始化模块,用于初始化所述分词中各个词语的词向量、所述各个词语对应的n元笔画的笔画向量以及所述各个词语对应的m元注音字符对应的注音字符向量;
相似度确定模块,用于根据所述分词中各个词语对应的词向量、笔画向量、注音字符向量,依次确定所述分词中各个词语与对应的上下文词语之间的综合相似度、以及所述分词中各个词语与负样例词语之间的综合相似度;其中,所述综合相似度基于词向量相似度、笔画向量相似度、注音向量相似度确定;向量优化模块,用于根据所述分词中各个词语与对应的上下文词语之间的综合相似度以及所述分词中各个词语与负样例词语之间的综合相似度,调整各个词语的对应的词向量、笔画向量、注音字符向量,获得所述分词中各个词语的目标词向量。
8.如权利要求7所述的装置,所述相似度确定模块具体用于:
对所述分词中各个词语进行遍历,依次将所述分词中各个词语中作为目标词语,并确定所述目标词语在所述分词中对应的上下文词语;其中,所述分词中各个词语之间的排序与所述待处理语料中各词语的排序一致;
根据各个所述目标词语对应的词向量、笔画向量、注音字符向量,以及各个目标词语对应的上下文词语对应的词向量,计算各个目标词语与对应的上下文词语之间的词向量相似度、笔画向量相似度、注音向量相似度;
根据所述词向量相似度、所述笔画向量相似度、所述注音向量相似度,确定各个目标词语与对应的上下文词语之间的综合相似度。
9.如权利要求8所述的装置,所述相似度确定模块具体用于:
根据所述目标词语的词向量与对应的上下文词语的词向量之间的向量点积值,确定所述目标词语与对应的上下文词语之间的词向量相似度;
根据所述目标词语的各个笔画向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的笔画向量相似度;
根据所述目标词语的各个注音字符向量与对应的上下文词语的词向量之间向量点积值,确定所述目标词语与对应的上下文词语之间的注音向量相似度。
10.如权利要求9所述的装置,所述相似度确定模块具体用于:
在所述分词中,以所述目标词语为中心,向左和/或向右滑动指定数量个词语的距离,建立滑动窗口;
遍历所述滑动窗口中的词语,依次将所述滑动窗口中所述目标词语以外的词语确定为所述目标词语对应的上下文词语。
11.如权利要求9所述的装置,所述向量优化模块具体用于:
从所述分词中选取预设数量个词语,作为负样例词语;
确定所述目标词语与各个所述负样例词语之间的综合相似度;
根据指定的损失函数、所述目标词语与对应的上下文词语之间的综合相似度,以及所述目标词语与各个所述负样例词语之间的综合相似度,确定所述目标词语对应的损失表征值;
根据所述损失表征值,对所述上下文词的词向量、所述目标词语的词向量、所述目标词语对应的笔画向量、注音字符向量进行训练更新,直至满足训练条件,生成所述目标词语对应的目标词向量。
12.如权利要求9所述的装置,所述相似度确定模块具体用于:
预先设置词向量权重、笔画权重和注音权重;
根据所述词向量权重、所述笔画权重、所述注音权重,计算所述词向量相似度、所述笔画向量相似度、所述注音向量相似度的加权平均值,根据所述加权平均值确定出各个目标词语与对应的上下文词语之间的综合相似度。
13.一种词语的词向量的生成设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-6任一项所述的方法。
14.一种中文文本处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器用于根据权利要求1-6任一项所述的方法生成的词向量进行自然语言分析。
CN202010198678.0A 2020-03-20 2020-03-20 一种词语的词向量的生成方法、装置及设备 Active CN111091001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010198678.0A CN111091001B (zh) 2020-03-20 2020-03-20 一种词语的词向量的生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010198678.0A CN111091001B (zh) 2020-03-20 2020-03-20 一种词语的词向量的生成方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111091001A true CN111091001A (zh) 2020-05-01
CN111091001B CN111091001B (zh) 2020-06-23

Family

ID=70400574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010198678.0A Active CN111091001B (zh) 2020-03-20 2020-03-20 一种词语的词向量的生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111091001B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581970A (zh) * 2020-05-12 2020-08-25 厦门市美亚柏科信息股份有限公司 一种网络语境的文本识别方法、装置及存储介质
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271610A (zh) * 2018-07-27 2019-01-25 昆明理工大学 一种汉字的向量表达方法
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN109933686A (zh) * 2019-03-18 2019-06-25 阿里巴巴集团控股有限公司 歌曲标签预测方法、装置、服务器及存储介质
CN110046340A (zh) * 2018-12-28 2019-07-23 阿里巴巴集团控股有限公司 文本分类模型的训练方法和装置
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271610A (zh) * 2018-07-27 2019-01-25 昆明理工大学 一种汉字的向量表达方法
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN110046340A (zh) * 2018-12-28 2019-07-23 阿里巴巴集团控股有限公司 文本分类模型的训练方法和装置
CN109933686A (zh) * 2019-03-18 2019-06-25 阿里巴巴集团控股有限公司 歌曲标签预测方法、装置、服务器及存储介质
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581970A (zh) * 2020-05-12 2020-08-25 厦门市美亚柏科信息股份有限公司 一种网络语境的文本识别方法、装置及存储介质
CN111581970B (zh) * 2020-05-12 2023-01-24 厦门市美亚柏科信息股份有限公司 一种网络语境的文本识别方法、装置及存储介质
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN113220865B (zh) * 2021-04-15 2022-06-24 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备

Also Published As

Publication number Publication date
CN111091001B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
EP3964998A1 (en) Text processing method and model training method and apparatus
CN107085581B (zh) 短文本分类方法和装置
US10606946B2 (en) Learning word embedding using morphological knowledge
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN108874765B (zh) 词向量处理方法及装置
WO2020199595A1 (zh) 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN108664465A (zh) 一种自动生成文本方法以及相关装置
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
US20190095525A1 (en) Extraction of expression for natural language processing
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant