CN110704621B - 文本处理方法、装置及存储介质和电子设备 - Google Patents

文本处理方法、装置及存储介质和电子设备 Download PDF

Info

Publication number
CN110704621B
CN110704621B CN201910910426.3A CN201910910426A CN110704621B CN 110704621 B CN110704621 B CN 110704621B CN 201910910426 A CN201910910426 A CN 201910910426A CN 110704621 B CN110704621 B CN 110704621B
Authority
CN
China
Prior art keywords
word
text
vector
sequence
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910910426.3A
Other languages
English (en)
Other versions
CN110704621A (zh
Inventor
王鹏
王永会
孙海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN201910910426.3A priority Critical patent/CN110704621B/zh
Publication of CN110704621A publication Critical patent/CN110704621A/zh
Application granted granted Critical
Publication of CN110704621B publication Critical patent/CN110704621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种文本处理方法、装置及存储介质和电子设备。通过获取第一文本对应的第一词序列和第二文本对应的第二词序列,确定所述第一词序列对应的第一词向量集合和第一词权重集合,确定所述第二词序列对应的第二词向量集合和第二词权重集合,基于所述第一词向量集合、第一词权重集合、第二词向量集合和第二词权重集合计算第一文本和第二文本的相似度。由此,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。

Description

文本处理方法、装置及存储介质和电子设备
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本处理方法、装置及存储介质和电子设备。
背景技术
随着自然语言处理技术的深入研究和产品落地,文本相似度计算在很多场景中得到广泛的应用,比如信息检索、智能问答、多轮对话和推荐系统等等。
目前,关于文本向量化的方法可以分为基于统计模型和深度学习两大类。其中,基于统计的方法主要是词袋模型(Bag-of-words),每个特征的构建可以使用TF-IDF(termfrequency–inverse document frequency,词频逆文本频率指数)算法或BM25(一种用来评价搜索词和文档之间相关性的算法)得到。基于深度学习的方法,比如CNN(ConvolutionalNeural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)或者BERT(Bidirectional Encoder Representation from Transformers,一种预训练语言表示方法)等可以通过预设的目标函数完成训练,然后可以在全连接层获得输入文本句子的向量化表示。此外,还有一些端到端(End-to-End)的模型,可以直接完成输入文本句子对之间的相似度计算,比如深度语义匹配模型(Deep Structured Semantic Mode,DSSM)等。
然而,单纯基于统计特征的方法主要是衡量词语表层的统计信息,无法有效计算词语之间的语义关联。基于深度学习的方法获取句子的向量化表示,需要结合具体的任务构建目标函数以完成模型的训练,迁移性受到约束。使用端到端的模型计算文本的相似度,需要标注大量的文本对,而对于语义的理解和标注因人而异,难以准确反映自然语言的特征。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文本处理方法、装置及存储介质和电子设备,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。
第一方面,本发明实施例的提供了一种文本处理方法,所述方法包括:
获取第一文本对应的第一词序列和第二文本对应的第二词序列;
确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,其中,所述第一词向量集合包含所述第一词序列中各词的词向量,所述第二词向量集合包含所述第二词序列中各词的词向量;
确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,其中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重;以及
基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度。
优选地,所述获取第一文本对应的第一词序列和第二文本对应的第二词序列,包括:
基于分词算法对所述第一文本和第二文本进行分词处理,其中,所述分词算法包括基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法;以及
基于预定规则对分词结果进行过滤,得到所述第一词序列和第二词序列。
优选地所述确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,包括:
基于词向量模型确定所述第一词向量集合和所述第二词向量集合,所述词向量模型基于预先训练得到,包括连续词袋模型、连续跳跃模型和词表征的全局向量模型。
优选地,所述确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,包括:
在词权重模型中,检索所述第一词序列中各词对应的词权重、所述第二次序列中各词对应的词权重,得到所述第一词权重集合和所述第二词权重集合,所述词权重模型基于预先训练得到。
优选地,所述词权重模型中包括至少一个文本片段,所述文本片段基于预定义的分隔符分割输入训练文本得到,所述文本片段包括至少一个词;以及
所述词权重模型中的每个词的权重跟包含该词的文本片段的数量成正相关、跟包含该词的文本片段中所包含的词的数量成负相关。
优选地,所述基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度,包括:
基于所述第一词向量集合和第一词权重集合计算所述第一文本对应的第一文本向量;
基于所述第二词向量集合和第二词权重集合计算所述第二文本对应的第二文本向量;以及
根据所述第一文本向量和所述第二文本向量计算所述相似度。
优选地,所述根据所述第一文本向量和所述第二文本向量计算所述相似度,包括:
对所述第一文本向量和所述第二文本向量进行归一化,所述归一化为将所述第一文本向量和所述第二文本向量分别除以所述第一词序列和所述第二词序列中的词的个数;以及
根据归一化后的第一文本向量和第二文本向量计算所述相似度,所述相似度为欧式距离、曼哈顿距离或余弦相似度。
第二方面,本发明实施例提供了一种文本处理装置,所述装置包括:
词序列获取单元,用于获取第一文本对应的第一词序列和第二文本对应的第二词序列;
词向量确定单元,用于确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,其中,所述第一词向量集合包含所述第一词序列中各词的词向量,所述第二词向量集合包含所述第二词序列中各词的词向量;
词权重确定单元,用于确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,其中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重;以及
相似度计算单元,用于基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
本发明实施例的技术方案通过获取第一文本对应的第一词序列和第二文本对应的第二词序列,确定所述第一词序列对应的第一词向量集合和第一词权重集合,确定所述第二词序列对应的第二词向量集合和第二词权重集合,基于所述第一词向量集合、第一词权重集合、第二词向量集合和第二词权重集合计算第一文本和第二文本的相似度。由此,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的文本处理方法的流程图;
图2是本发明实施例的处理文本的流程图;
图3是本发明实施例的计算相似度的流程图;
图4是本发明实施例的文本处理装置的示意图;
图5是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的文本处理方法的流程图。如图1所示,本发明实施例的文本处理方法包括如下步骤:
步骤S100、获取第一文本对应的第一词序列和第二文本对应的第二词序列。
在本实施例中,获取对应场景的文本数据作为语料库。优选地,所述语料库中包含对应场景的大量文本,所述文本可以包括一个或多个句子。
在本实施例中,获取第一文本和第二文本,所述第一文本和第二文本为待处理文本,优选地,所述第一文本和所述第二文本为短文本,或者文本句子。基于上述步骤获取第一文本对应的第一词序列和第二文本对应的第二词序列。
进一步地,获取第一文本对应的第一词序列和第二文本对应的第二词序列,包括如下步骤:
步骤S110、基于分词算法对所述第一文本和第二文本进行分词处理,其中,所述分词算法包括基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法
进一步地,分词处理是指中文分词(Chinese Word Segmentation),指的是将一个汉字序列切分成一个一个单独的词,也就是说,将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
在本实施例中,所述分词算法包括基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。
进一步地,基于字符串匹配的分词算法又称机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的字符串匹配方法包括正向最大匹配法(从左到右的方向)、逆向最大匹配法(从右到左的方向)、最小切分(每一句中切出的词数最小)和双向最大匹配(进行从左到右、从右到左两次扫描)。基于字符串匹配的分词算法的优点是速度快,实现简单,分词效果较好。
进一步地,基于理解的分词算法是通过让计算机模拟人对文本句子的理解,达到识别词的效果。其通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
进一步地,基于统计的分词算法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,同时使用统计方法识别一些新词,即将字符串频率统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
优选地,可以通过添加自定义词典,在所述自定义词典中添加相关领域的常用词语或专用词语,以使得分词结果更加准确。
步骤S120、基于预定规则对分词结果进行过滤,得到所述第一词序列和第二词序列。
在本实施例中,所述预定规则为所述词序列中词的出现次数低于预定阈值,将所述词序列中词的出现次数低于所述预定阈值的词删除,以过滤掉低频词。
可选地,所述预定阈值为5,也即,将所述词序列中词的出现次数低于5的词删除。
由此,通过过滤低频词,以排除语料库中相关性较低的词对计算结果的影响,可以进一步提升计算结果的准确性。
步骤S200、确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合。
在本实施例中,基于词向量模型确定所述第一词向量集合和所述第二词向量集合。
进一步地,所述词向量模型基于预先训练得到。具体地,获取大量的训练文本,根据所述训练文本训练获取所述词向量模型。
在本实施例中,所述词向量模型包括连续词袋(Continuous Bag-Of-Words,CBOW)模型或连续跳跃(Continuous Skip-gram)模型和GloVe(Global vectors for wordrepresentation,词表征的全局向量)模型。
进一步地,CBOW模型是通过目标词的上下文的词预测目标词。具体的做法是,设定词向量的维度d,对所有的词随机初始化为一个d维的向量,然后要对上下文所有的词向量编码得到一个隐藏层的向量,通过这个隐藏层的向量预测目标词。例如,词汇表中一个有V个不同的词,就是隐藏层d维的向量乘以一个W矩阵转化为一个V维的向量,然后做一个分类器进行分类。
进一步地,Skip-gram模型与CBOW模型的原理相似,它的输入是目标词,先是将目标词映射为一个隐藏层向量,根据这个向量预测目标词上下文两个词。
进一步地,GloVe模型是一个基于全局词频统计的词表征工具,它可以把一个词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。
优选地,所述词向量的维度为50、100或150。
由此,可基于预训练的词向量模型获取第一词序列对应的第一词向量集合和第二词序列对应的第二词向量集合。
优选地,在获取第一词序列对应的第一词向量集合和第二词序列对应的第二词向量集合的过程中,也即在使用所述词向量模型的过程中可以对所述词向量模型不断的更新,以提高词向量的准确性。
步骤S300、确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合。
在本实施例中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重。
进一步地,通过词权重模型确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合。具体地,在词权重模型中,检索所述第一词序列中各词对应的词权重、所述第二次序列中各词对应的词权重,得到所述第一词权重集合和所述第二词权重集合,所述词权重模型基于预先训练得到。
在本实施例中,所述词权重模型中包括至少一个文本片段,所述文本片段基于预定义的分隔符分割输入训练文本得到,所述文本片段包括至少一个词。所述词权重模型中的每个词的权重跟包含该词的文本片段的数量成正相关、跟包含该词的文本片段中所包含的词的数量成负相关。
在本实施例中,所述词权重模型为EIALF(Enriched Inverse Average FragmentLength,增强的逆平均片段长度)模型。该权重的计算是基于自然语言的一个基础理论,即在语言表达中如果一个词语能够独立的存在,那么该词是有信息量的。该理论认为,在统计意义上富含信息的词语其上下文比含有信息少的词语所需要的附加词更少。因此,可以从这个维度衡量每个词语对于文本句子整体语义的贡献度。
具体地,确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,包括如下步骤:
步骤S310、基于预定义的分割符将所述词序列分割为多个词片段。
在本实施例中,所述词片段至少包括一个词。
在本实施例中,所述分割符包括标点符号、连词、拟声词、介词、助词、语气词和状态词中的一种或多种。
步骤S320、根据所述词片段获取各词的词权重。
其中,根据所述词片段获取各词的词权重的公式为:
Figure BDA0002214530310000091
其中,Wi为词序列中第i个词的词权重,fi为所述第i个词对应的词片段集合,fi中的每个词片段中包含所述第i个词,|fi|为所述词片段集合中的词片段个数,Lfi为所述词片段集合中的各词片段的长度。
由此,可基于上述公式分别获取第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合。
进一步地,图2是本发明实施例的处理文本的流程图。如图2所示,本实施例以语料库中的一句“老师好,可以帮我把明天的自然拼读课取消吗?”的短文本1为例进行说明。
首先,对短文本1进行分词处理,以获取词序列2,上述短文本1的词序列2为“老师/好/,/可以/帮/我/把/明天/的/自然拼读课/取消/吗/”。然后基于预定义的分割符(标点符号、连词、拟声词、介词、助词、语气词和状态词)将所述词序列分割为词片段3。所述词片段3为“[老师好][帮我][明天][自然拼读课取消]”。每个中括号内部的词组成一个词片段,也就是说,将上述端文本分割为5个词片段。每个词片段的长度为其所包含的词的个数,例如,对于词片段“[老师好]”,其长度为2,对于词片段“[明天]”,其长度为1。
进一步地,由于语料库中包含有大量的短文本,因此,对语料库分割后会形成大量的词片段。如果第i个词为“老师”,那么对于上述公式中的fi即为包含“老师”这个词的所有的词片段组成的集合,即集合fi的每一个元素都是词片段。|fi|即为集合fi中的元素(词片段)个数。Lfi为所述词片段集合中的各词片段的长度。也就是说,上述公式表示的含义为:第i个词的词权重为所有包含第i个词的词片段的长度之和与包含第i个词的词片段的个数的比值的倒数,也即逆平均长度。
例如,假设语料库中只包含上述短文本1,对于“老师”这个词,其词片段只有一个“[老师好]”,即|fi|=1。且,ΣLfi=2。由此,根据上述公式,可计算获得W(老师)为
Figure BDA0002214530310000101
再例如,假设语料库中只包含上述短文本1,对于“明天”这个词,其词片段只有一个“[明天]”,即|fi|=1。且,∑Lfi=1。由此,根据上述公式,可计算获得W(明天)为1。
通过上述方式获取词权重不需要人工标注,完全依赖于搜集的垂直场景语料,是一种自适应的权值计算方法。
由此,通过获取对应场景的语料库,对所述语料库进行分词处理以获取词序列,进而通过词向量模型和词权重模型确定所述词序列中各词的词向量和词权重。由此,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。
步骤S400、基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度。
进一步地,图3是本发明实施例的计算相似度的流程图。如图3所示,基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度,包括如下步骤:
步骤S410、基于所述第一词向量集合和第一词权重集合计算所述第一文本对应的第一文本向量。
在本实施例中,将所述第一词向量集合和第一词权重集合加权求和以获取第一文本向量。
在本实施例中,基于上述分词算法和预定的过滤规则对所述第一文本进行分词处理,以获取第一词序列,所述第一词序列包括n个词,则所述第一文本向量Vp为:
Figure BDA0002214530310000111
其中,Vp为所述第一文本向量,Vi为所述第一词序列中第i个词的词向量,Wi为所述第一词序列中第i个词的词权重,n为所述第一词序列中的词的个数。
步骤S420、基于所述第二词向量集合和第二词权重集合计算所述第二文本对应的第二文本向量。
在本实施例中,基于上述分词算法和预定的过滤规则对所述第二文本进行分词处理,以获取第二词序列,所述第二词序列包括m个词,则所述第二文本向量Vq为:
Figure BDA0002214530310000112
其中,Vq为所述第二文本向量,Vj为所述第二词序列中第j个词的词向量,Wj为所述第二词序列中第j个词的词权重,m为所述第二词序列中的词的个数。
步骤S430、根据所述第一文本向量和所述第二文本向量计算所述相似度。
在本实施例中,在m=n时,所述第一文本向量和所述第二文本向量的长度一致,可以根据上述第一文本向量和所述第二文本向量直接计算相似度。
进一步地,在m≠n时,所述根据所述第一文本向量和所述第二文本向量计算相似度包括:
步骤S431、对所述第一文本向量和所述第二文本向量进行归一化。
在本实施例中,所述归一化为将所述第一文本向量和所述第二文本向量分别除以所述第一词序列和所述第二词序列中的词的个数。
进一步地,对所述第一文本向量归一化的公式为:
Figure BDA0002214530310000121
其中,Vp′为归一化后的第一文本向量,Vi为所述第一词序列中第i个词的词向量,Wi为所述第一词序列中第i个词的词权重,n为所述第一词序列中的词的个数。
进一步地,对所述第二文本向量归一化的公式为:
Figure BDA0002214530310000122
其中,Vq′为归一化后的第二文本向量,Vj为所述第二词序列中第j个词的词向量,Wj为所述第二词序列中第j个词的词权重,m为所述第二词序列中的词的个数。
由此,可以使得归一化后的第一文本向量和第二文本向量具有相同的长度。
步骤S432、根据归一化后的第一文本向量和第二文本向量计算所述相似度。
进一步地,所述计算相似度为计算所述第一文本向量和所述第二文本向量的的欧式距离、曼哈顿距离或余弦相似度。
进一步地,欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric),以空间为基准的两点之间最短距离。对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其欧式距离的计算公式为:
Figure BDA0002214530310000123
其中,D1为所述第一文本向量和第二文本向量的欧式距离,x1i为所述第一文本向量(或归一化后的第一文本向量)的第i个元素,x2i为所述第二文本向量(或归一化后的第二文本向量)的第i个元素。
进一步地,曼哈顿距离又称马氏距离(Manhattan distance),对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其曼哈顿距离的计算公式为:
Figure BDA0002214530310000131
其中,D2为所述第一文本向量和第二文本向量的曼哈顿距离,x1i为所述第一文本向量(或归一化后的第一文本向量)的第i个元素,x2i为所述第二文本向量(或归一化后的第二文本向量)的第i个元素。
进一步地,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。通过两个向量的夹角的余弦值表征两个向量相似度。对于k维的第一文本向量Vp(x11,x12,…,x1k)和第二文本向量Vq(x21,x22,…,x2k),其余弦距离的计算公式为:
Figure BDA0002214530310000132
其中,D3为所述第一文本向量和第二文本向量的曼哈顿距离,x1i为所述第一文本向量(或归一化后的第一文本向量)的第i个元素,x2i为所述第二文本向量(或归一化后的第二文本向量)的第i个元素。
应理解,本发明实施例计算相似度的方法并不限于上述列举的三种方式,其它计算相似度的方法也可适用。
进一步地,通过上述步骤也可以获取两个词的相似度,例如,通过上述方法可以得到:
V(国王)-V(男人)≈V(王后)-V(女人);
V(中国)+V(首都)≈V(北京)。
由此可见,单词的语义可以基于词向量进行有效计算和量化。
本发明实施例通过获取第一文本对应的第一词序列和第二文本对应的第二词序列,确定所述第一词序列对应的第一词向量集合和第一词权重集合,确定所述第二词序列对应的第二词向量集合和第二词权重集合,基于所述第一词向量集合、第一词权重集合、第二词向量集合和第二词权重集合计算第一文本和第二文本的相似度。由此,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。
图4是本发明实施例的文本处理装置的示意图。如图4所示,本发明实施例的文本处理装置包括词序列获取单元41、词向量确定单42、词权重确定单元43和相似度计算单元44。词序列获取单元41用于获取第一文本对应的第一词序列和第二文本对应的第二词序列。词向量确定单元42用于确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,其中,所述第一词向量集合包含所述第一词序列中各词的词向量,所述第二词向量集合包含所述第二词序列中各词的词向量。词权重确定单元43用于确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,其中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重。相似度计算单元44用于基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度。
优选地,所述词序列获取单元41包括:
分词处理模块411,用于基于分词算法对所述第一文本和第二文本进行分词处理,其中,所述分词算法包括基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法;以及
分词过滤模块412,用于基于预定规则对分词结果进行过滤,得到所述第一词序列和第二词序列。
优选地,词向量确定单元42被配置为基于词向量模型确定所述第一词向量集合和所述第二词向量集合,所述词向量模型基于预先训练得到,包括连续词袋模型、连续跳跃模型和词表征的全局向量模型。
优选地,所述词权重确定单元43被配置为在词权重模型中,检索所述第一词序列中各词对应的词权重、所述第二次序列中各词对应的词权重,得到所述第一词权重集合和所述第二词权重集合,所述词权重模型基于预先训练得到。
优选地,所述词权重模型中包括至少一个文本片段,所述文本片段基于预定义的分隔符分割输入训练文本得到,所述文本片段包括至少一个词;以及
所述词权重模型中的每个词的权重跟包含该词的文本片段的数量成正相关、跟包含该词的文本片段中所包含的词的数量成负相关。
优选地,所述相似度计算单元44包括:
第一计算模块441,用于基于所述第一词向量集合和第一词权重集合计算所述第一文本对应的第一文本向量;
第二计算模块442,用于基于所述第二词向量集合和第二词权重集合计算所述第二文本对应的第二文本向量;以及
第三计算模块442,用于根据所述第一文本向量和所述第二文本向量计算所述相似度。
优选地,所述第三计算单元443包括:
归一化模块443a,用于对所述第一文本向量和所述第二文本向量进行归一化,所述归一化为将所述第一文本向量和所述第二文本向量分别除以所述第一词序列和所述第二词序列中的词的个数;以及
向量相似度计算模块443b,用于根据归一化后的第一文本向量和第二文本向量计算所述相似度,所述相似度为欧式距离、曼哈顿距离或余弦相似度。
本发明实施例通过获取第一文本对应的第一词序列和第二文本对应的第二词序列,确定所述第一词序列对应的第一词向量集合和第一词权重集合,确定所述第二词序列对应的第二词向量集合和第二词权重集合,基于所述第一词向量集合、第一词权重集合、第二词向量集合和第二词权重集合计算第一文本和第二文本的相似度。由此,可以通过自适应的方法获取不同场景下的语料库中各词的词权重,用于文本向量化的合成,充分体现各词对文本语义的贡献度,提升文本的向量化表示能力。
图5是本发明实施例的电子设备的示意图。图5所示的电子设备为自动问答装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线。连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置55通过输入/输出(I/O)控制器56与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质;不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk,C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行:部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以便在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文本处理方法,其特征在于,所述方法包括:
获取第一文本对应的第一词序列和第二文本对应的第二词序列;
确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,其中,所述第一词向量集合包含所述第一词序列中各词的词向量,所述第二词向量集合包含所述第二词序列中各词的词向量;
确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,其中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重;以及
基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度;
其中,所述基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度,包括:
基于所述第一词向量集合和第一词权重集合计算所述第一文本对应的第一文本向量;
基于所述第二词向量集合和第二词权重集合计算所述第二文本对应的第二文本向量;以及
根据所述第一文本向量和所述第二文本向量计算所述相似度;
其中,所述词权重通过词权重模型获取,所述词权重模型中包括至少一个文本片段,所述文本片段基于预定义的分隔符分割输入训练文本得到,所述文本片段包括至少一个词,所述词权重模型中的每个词的权重跟包含该词的文本片段的数量成正相关、跟包含该词的文本片段中所包含的词的数量成负相关;
其中,所述词权重的计算公式为:
其中,Wi为词序列中第i个词的词权重,fi为所述第i个词对应的词片段集合,fi中的每个词片段中包含所述第i个词,|fi|为所述词片段集合中的词片段个数,Lfi为所述词片段集合中的各词片段的长度。
2.根据权利要求1所述的方法,其特征在于,所述获取第一文本对应的第一词序列和第二文本对应的第二词序列,包括:
基于分词算法对所述第一文本和第二文本进行分词处理,其中,所述分词算法包括基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法;以及
基于预定规则对分词结果进行过滤,得到所述第一词序列和第二词序列。
3.根据权利要求1所述的方法,其特征在于,所述确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,包括:
基于词向量模型确定所述第一词向量集合和所述第二词向量集合,所述词向量模型基于预先训练得到,包括连续词袋模型、连续跳跃模型和词表征的全局向量模型。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,包括:
在词权重模型中,检索所述第一词序列中各词对应的词权重、所述第二词序列中各词对应的词权重,得到所述第一词权重集合和所述第二词权重集合,所述词权重模型基于预先训练得到。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本向量和所述第二文本向量计算所述相似度,包括:
对所述第一文本向量和所述第二文本向量进行归一化,所述归一化为将所述第一文本向量和所述第二文本向量分别除以所述第一词序列和所述第二词序列中的词的个数;以及
根据归一化后的第一文本向量和第二文本向量计算所述相似度,所述相似度为欧式距离、曼哈顿距离或余弦相似度。
6.一种文本处理装置,其特征在于,所述装置包括:
词序列获取单元,用于获取第一文本对应的第一词序列和第二文本对应的第二词序列;
词向量确定单元,用于确定所述第一词序列对应的第一词向量集合和所述第二词序列对应的第二词向量集合,其中,所述第一词向量集合包含所述第一词序列中各词的词向量,所述第二词向量集合包含所述第二词序列中各词的词向量;
词权重确定单元,用于确定所述第一词序列对应的第一词权重集合和所述第二词序列对应的第二词权重集合,其中,所述第一词权重集合包含所述第一词序列中各词的词权重,所述第二词权重集合包含所述第二词序列中各词的词权重;以及
相似度计算单元,用于基于所述第一词向量集合、所述第一词权重集合、所述第二词向量集合和所述第二词权重集合,计算所述第一文本和所述第二文本的相似度;
其中,所述相似度计算单元包括:
第一计算模块,用于基于所述第一词向量集合和第一词权重集合计算所述第一文本对应的第一文本向量;
第二计算模块,用于基于所述第二词向量集合和第二词权重集合计算所述第二文本对应的第二文本向量;以及
第三计算模块,用于根据所述第一文本向量和所述第二文本向量计算所述相似度;
其中,所述词权重通过词权重模型获取,所述词权重模型中包括至少一个文本片段,所述文本片段基于预定义的分隔符分割输入训练文本得到,所述文本片段包括至少一个词,所述词权重模型中的每个词的权重跟包含该词的文本片段的数量成正相关、跟包含该词的文本片段中所包含的词的数量成负相关;
其中,所述词权重的计算公式为:
其中,Wi为词序列中第i个词的词权重,fi为所述第i个词对应的词片段集合,fi中的每个词片段中包含所述第i个词,|fi|为所述词片段集合中的词片段个数,Lfi为所述词片段集合中的各词片段的长度。
7.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201910910426.3A 2019-09-25 2019-09-25 文本处理方法、装置及存储介质和电子设备 Active CN110704621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910910426.3A CN110704621B (zh) 2019-09-25 2019-09-25 文本处理方法、装置及存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910910426.3A CN110704621B (zh) 2019-09-25 2019-09-25 文本处理方法、装置及存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110704621A CN110704621A (zh) 2020-01-17
CN110704621B true CN110704621B (zh) 2023-04-21

Family

ID=69197159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910910426.3A Active CN110704621B (zh) 2019-09-25 2019-09-25 文本处理方法、装置及存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110704621B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274808B (zh) * 2020-02-11 2023-07-04 支付宝(杭州)信息技术有限公司 文本检索方法、模型训练方法、文本检索装置及存储介质
CN111476029A (zh) * 2020-04-13 2020-07-31 武汉联影医疗科技有限公司 资源推荐方法和装置
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112163421B (zh) * 2020-10-09 2022-05-17 厦门大学 一种基于N-Gram的关键词提取方法
CN112257419B (zh) * 2020-11-06 2021-05-28 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备
CN112765976A (zh) * 2020-12-30 2021-05-07 北京知因智慧科技有限公司 文本相似度计算方法、装置、设备及存储介质
CN113011172B (zh) * 2021-03-15 2023-08-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113360613A (zh) * 2021-05-31 2021-09-07 维沃移动通信有限公司 文本处理方法、装置和电子设备
CN113297835B (zh) * 2021-06-24 2024-03-29 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
CN116386800B (zh) * 2023-06-06 2023-08-18 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110134967A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本处理方法、装置、计算设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110704621A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN110737758A (zh) 用于生成模型的方法和装置
CN109902156B (zh) 实体检索方法、存储介质和电子设备
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN113887215A (zh) 文本相似度计算方法、装置、电子设备及存储介质
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111178036B (zh) 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
Deibel et al. Style Change Detection on Real-World Data using an LSTM-powered Attribution Algorithm.
CN116628186A (zh) 文本摘要生成方法及系统
Shashavali et al. Sentence similarity techniques for short vs variable length text using word embeddings
CN112599129B (zh) 语音识别方法、装置、设备和存储介质
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant