CN112364666A - 文本表征方法、装置及计算机设备 - Google Patents

文本表征方法、装置及计算机设备 Download PDF

Info

Publication number
CN112364666A
CN112364666A CN202011259325.3A CN202011259325A CN112364666A CN 112364666 A CN112364666 A CN 112364666A CN 202011259325 A CN202011259325 A CN 202011259325A CN 112364666 A CN112364666 A CN 112364666A
Authority
CN
China
Prior art keywords
word
matrix
text
vector matrix
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011259325.3A
Other languages
English (en)
Other versions
CN112364666B (zh
Inventor
蔡薇
黄帅
尹亚维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubo Network Technology Shanghai Co ltd
Original Assignee
Hubo Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubo Network Technology Shanghai Co ltd filed Critical Hubo Network Technology Shanghai Co ltd
Priority to CN202011259325.3A priority Critical patent/CN112364666B/zh
Publication of CN112364666A publication Critical patent/CN112364666A/zh
Application granted granted Critical
Publication of CN112364666B publication Critical patent/CN112364666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了文本表征方法、装置及计算机设备。该文本表征方法包括:对输入的句子文本进行分词,获得第一词向量矩阵和第一字向量矩阵;将第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;将第一词向量矩阵与词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将第一字向量矩阵与字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;然后将第二词向量矩阵和第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层,进行矩阵拼接,获得句子文本的完整编码层,作为句子文本对应的表征结果。本发明的文本表征方法,实现了对句子语义信息的更加完善、准确的表达。

Description

文本表征方法、装置及计算机设备
技术领域
本发明涉及自然语言处理领域,尤其涉及文本表征方法、装置及计算机设备。
背景技术
用自然语言与计算机进行通信,这是人们长期以来所追求的。随着深度学习技术的飞速发展,越来越多的深度学习技术被应用到自然语言处理的各个领域,多种基于深度学习的自然语言模型也被提出,模型如何更好地表示自然语言,成为了很重要的议题。
一些模型在对文本中的句子进行建模时,将分词工具得到的一个词作为句子的一个语义单元进行分析。对于汉语而言,直接用一个词作为语义进行表示,忽略了词内字间的信息。并且分词工具的中文分词结果并非完全准确,所以将词作为句子的一个语义单元进行分析并不能完整地表达句子的意思。另一些模型将单独的字作为一个语义单元进行表示,但是汉语中单独的一个字歧义性较大,并不能准确地表示当前的语境信息。还有一些模型将汉语字和词信息直接结合进行表示,但是对于一个词而言,有些字能表达整个词的语义,而有些字是不会影响这个词的语义的,同样也不能准确地表示当前语境信息。
可见,现有的自然语言模型对于词和字的结合,无法体现词对字以及字对词的重要性,无法精准、完善地对句子的语义进行表征。
发明内容
鉴于上述问题,本发明提供文本表征方法、装置及计算机设备,通过注意力机制动态结合字词信息,从而构建一个文本表征模型,更加准确地表示句子的语义信息。
第一方面,本发明的一个实施方式提供一种文本表征方法,包括:
接收输入的句子文本;
对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
在一种可能的实施方式中,所述对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
所述步骤包括:
将所述句子文本通过分词器以词为单位进行分词,获得所述句子文本的词集合,利用中文预训练所述词集合,获得所述第一词向量矩阵;
将所述句子文本通过分词器以字为单位进行分词,获得所述句子文本的字集合,随机初始化所述字集合,获得所述第一字向量矩阵。
在一种可能的实施方式中,所述将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
所述步骤包括:
以所述第一字向量矩阵为key向量和value向量,所述第一词向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述词信息背景矩阵,所述词信息背景矩阵以字信息为背景元素;
以所述第一词向量矩阵为key向量和value向量,所述第一字向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述字信息背景矩阵,所述字信息背景矩阵以词信息为背景元素;
其中,所述预设公式为:
Figure BDA0002774125280000031
Q表示query向量,K表示key向量,V表示value向量,dk表示所述key向量的维度。
在一种可能的实施方式中,所述将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
所述步骤包括:
将所述第二词向量矩阵和所述第二字向量矩阵通向双向长短记忆神经网络层的进行深层编码,得到所述词矩阵层和所述字矩阵层。
在一种可能的实施方式中,所述将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果;
所述步骤之后还包括:
通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别;
根据所述句子文本的离散概率向量构建文本分类任务。
在一种可能的实施方式中,所述通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别;
所述的步骤之后还包括:
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure BDA0002774125280000041
у表示所述真实类别中的真实概率分布,
Figure BDA0002774125280000042
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
第二方面,本发明又提供了一种文本表征装置,包括:
输入模块,用于接收输入的句子文本;
分词模块,用于对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
结合模块,用于将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
第一拼接模块,用于将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
编码模块,用于将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
第二拼接模块,用于将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
在一种可能的实施方式中,所述装置还包括:
对比模块,用于通过Softmax对所述矩阵拼接模块获得的所述完整编码层进行归一化处理,获得所述句子文本的模型预测类别;
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure BDA0002774125280000051
у表示所述真实类别中的真实概率分布,
Figure BDA0002774125280000052
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
第三方面,本发明还提供了一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行第一方面中任一项所述的文本表征方法。
第四方面,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行所述的文本表征方法。本发明的技术方案,通过对输入的句子文本进行分词,获得第一词向量矩阵和第一字向量矩阵;将第一词向量矩阵和所述第一字向量矩阵通过注意力机制(Attention)动态结合,获得词信息背景矩阵和字信息背景矩阵;将第一词向量矩阵与词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将第一字向量矩阵与字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;然后将第二词向量矩阵和第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层,进行矩阵拼接,获得句子文本的完整编码层,作为句子文本对应的表征结果。本发明通过注意力机制将字信息和词信息动态结合,在词信息中融入了字信息,字信息中融入了词信息,分别增加了词向量信息、字向量信息在对应向量矩阵中的权重,以此更加准确完善地表示句子语义信息,更好地服务于下游构建文本分类任务。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提供的文本表征方法的流程示意图;
图2示出了本发明实施例提供的文本表征方法的算法流程示意图;
图3A至图3C示出了本发明实施例提供的文本表征方法所涉及的未加入注意力机制的模型测试与训练数据图;
图4A至图4C示出了本发明实施例提供的文本表征方法所涉及的加入注意力机制的模型测试与训练数据图;
图5示出了本发明实施例提供的文本表征装置的流程示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
本发明提供一种文本表征方法,所述文本表征方法可以用于情感分析、标签识别、翻译等自然语言处理(Natural Language Processing,简称NLP)领域。如图1和图2所示,本发明所提供的文本表征方法的步骤包括:
步骤S101,接收输入的句子文本。
步骤S102,对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵。
本实施例提供一种文本表征方法,用于表征输入的句子文本的语义特征。具体的,先输入句子文本,句子文本可以是包含多字词组成的文本。
在接收到所输入的句子文本之后,对句子文本进行分词操作,分词处理后输出一个词向量矩阵和一个字向量矩阵,分别定义为第一词向量矩阵word_encoder1和第一字向量矩阵char_encoder1。
上述对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵的步骤在具体实施时,可以包括:
将所述句子文本通过分词器以词为单位进行分词,获得所述句子文本的词集合,利用中文预训练所述词集合,获得所述第一词向量矩阵;
将所述句子文本通过分词器以字为单位进行分词,获得所述句子文本的字集合,随机初始化所述字集合,获得所述第一字向量矩阵。
上述所使用的分词器是可以把一段文本中的词按一定规则进行切分;
例如,第一步:句子文本按照结巴分词进行分词,输出结果为words=['体育用品','店里','的','乒乓球','拍卖','完','了'],将words通过中文预训练embeddings,词语转换成了数值表示,标记为word_encoder1;第二步:句子按照字符分词结果为chars=['体','育','用','品','店','里','的','乒','乓','球','拍','卖','完','了'],随机初始化chars embeddings,字符词语转换成了数值表示,标记为char_encoder1。上述例子中的矩阵都是数值型矩阵。
步骤S103,将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵。
将上述S102中获得的第一词向量矩阵word_encoder1和第一字向量矩阵char_encoder1,利用注意力机制动态结合,获得与其对应的背景矩阵,分别定义为词信息背景矩阵word_context和字信息背景矩阵char_context。
上述注意力机制的动态结合,是通过从众多矩阵信息中,筛选出对当前句子文本语义表征最关键的信息,然后将矩阵信息进行结合。上述所应用的注意力机制主要有两方面的作用:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。
上述步骤在具体实施中,包括:
以所述第一字向量矩阵为key向量和value向量,所述第一词向量矩阵为query向量,利用注意力(Attention)机制通过预设公式进行计算,获得所述词信息背景矩阵,所述词信息背景矩阵以字信息为背景元素;
将上述S102中获得的第一词向量矩阵word_encoder1和第一字向量矩阵char_encoder1输入,第一字向量矩阵char_encoder1为key向量和value向量,所述第一词向量矩阵word_encoder1为query向量,计算获得词信息背景矩阵,定义为词信息背景矩阵word_context。
以所述第一词向量矩阵为key向量和value向量,所述第一字向量矩阵为query向量,利用注意力(Attention)机制通过预设公式进行计算,获得所述字信息背景矩阵,所述字信息背景矩阵以词信息为背景元素。
将上述S102中获得的第一词向量矩阵word_encoder1和第一字向量矩阵char_encoder1输入,第一词向量矩阵word_encoder1为key向量和value向量,所述第一字向量矩阵char_encoder1为query向量,计算获得字信息背景矩阵,定义为字信息背景矩阵char_context。
其中,所述预设公式为:
Figure BDA0002774125280000101
Q表示query向量,K表示key向量,V表示value向量,dk表示所述key向量的维度。
在文本表征过程中,在词信息中融入了字信息,字信息中融入了词信息,分别增加了词向量信息、字向量信息在对应向量矩阵中的权重。例如,上述例子中,切词工具切出的词语与句子真实的标签信息是不一致的,这时候加入字的表示,能一定程度抵消这种不准确的切词情况。
步骤S104,将所述第一词向量矩阵与所述词信息背景矩阵t进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵。
具体地,将第一词向量矩阵word_encoder1与上述S102中获得的所述词信息背景矩阵word_context进行矩阵拼接,获得第二词向量矩阵,定义为第二词向量矩阵word_encoder2,将所述第一字向量矩阵char_encoder1与上述S102中获得的所述字信息背景矩阵char_context进行矩阵拼接,获得第二字向量矩阵,定义为第二字向量矩阵char_encoder2。
上述步骤在具体实施中,所述矩阵拼接是指将两个小矩阵拼接成一个大矩阵。例如,word_encoder1的维度为(300,200),word_context的维度为(200,200),经过矩阵拼接后的word_encoder2的矩阵维度为(500,200)。
步骤S105,将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
将步骤S104中获得的新矩阵,第二词向量矩阵word_encoder2和所述第二字向量矩阵char_encoder2进行深层编码,获得词矩阵层和字矩阵层,分别定义为词矩阵层word_layer和字矩阵层char_layer;
上述步骤在具体实施中,还包括:
将所述第二词向量矩阵和所述第二字向量矩阵char_encoder2通向双向长短记忆神经网络层(Long Short Term Memory networks,简称LSTM)的进行深层编码,得到所述词矩阵层和所述字矩阵层。
步骤S106将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
在具体实施中,真实句子文本输入后,执行完上述步骤,如图2所示在output那一层直接输出句子文本的对应表征结果。
在输入句子文本进行文本表征时,若应用于情感分析,输入句子文本,输出的正负面信息,如“好”与“坏”此类的属性评价作为表征结果;若应用于分类模型,输入句子文本,输出的是相应的类别信息作为表征结果。
例如,输入句子文本:“体育用品店里的乒乓球拍卖完了”,标签:[1,0,0];分类标签类型为三种:‘售空’,‘拍卖’,‘批发’,以上句子标记为‘售空’,转化为one-hot形式为[1,0,0]。
在本发明中,通过深度学习中的注意力(Attention)机制,实现动态结合句子中的词信息与字信息,解决了中文分词的不准确性与单个字信息的歧义性问题,词信息有加权地结合字信息,能够对句子文本信息更加准确地建模和表征。
在上述步骤之后,所述方法还可以包括:
通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别。
根据所述句子文本的离散概率向量构建文本分类任务。
所述通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别的步骤,还包括;
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure BDA0002774125280000121
у表示所述真实类别中的真实概率分布,
Figure BDA0002774125280000122
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
在分析上述的计算结果时,预测概率分布与真实概率分布越接近,则交叉熵损失函数的值越小,反之则越大。
在具体实施时,上述通过Softmax对所述完整编码层进行归一化处理,使上述神经网络层的输出变成可解释的概率分布,输出值都在0-1之间,且加起来等于1,从而获得所述句子文本的离散概率向量。
上述步骤在具体实施中,如图3A至图3C,文本表征方法所涉及的未加入注意力机制的模型测试与训练数据对比图,图3A所示是模型测试数据图,图3A所示是训练数据图,图3C所示是训练损失数据图。
图4A至图4C所示文本表征方法所涉及的加入注意力机制的模型测试与训练数据图,图4A所示是模型测试数据图,图4A所示是训练数据图,图4C所示是训练损失数据图。
通过对比分析可得,在多分类数据集上,未加入注意力(Attention)机制融合模型的测试数据F1值为76.60%,加入了注意力(Attention)融合模型的测试数据F1值为78.87%。通过注意力机制(Attention)融合词信息与信息的模型收敛速度更快,并且F1提高了2%。
模型建立过程中需要用输出的预测结果与真实结果做比较,通过计算交叉熵损失函数,利用优化器反向更新模型参数,使得所述交叉熵损失函数最小化,不断地优化文本分类任务,从而使得句子文本的表征更加准确完善。
实施例2
与上述文本表征方法相对应,参见图5,本发明实施例还提供一种文本表征装置500。如图5所示,所述文本表征装置500包括:
输入模块501,用于接收输入的句子文本;
分词模块502,对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
结合模块503,将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
第一拼接模块504,将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
编码模块505,将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
第二拼接模块506,将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
此外,在上述文本表征装置还包括,对比模块,通过Softmax对所述矩阵拼接模块获得的所述完整编码层进行归一化处理,获得所述句子文本的模型预测类别;
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure BDA0002774125280000141
у表示所述真实类别中的真实概率分布,
Figure BDA0002774125280000142
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
在具体实施中,模型建立过程中需要用输出的预测结果与真实结果做比较,通过计算交叉熵损失函数,反向更新模型参数。
本发明还提供一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行根据上述任意一项所述的文本表征方法。
本发明还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行所述的文本表征方法。
综上所述,本公开实施例提供的文本表征方法、装置及计算机设备,具有不断地优化文本分类任务,从而使得句子文本的表征更加准确完善的效果。所提供的文本表征装置、计算机设备及计算机可读存储介质的具体实施过程,可以参见上述方法实施例的具体实施过程,在此不再一一赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文本表征方法,其特征在于,所述方法包括:
接收输入的句子文本;
对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
2.根据权利要求1所述的文本表征方法,其特征在于,所述对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵的步骤,包括:
将所述句子文本通过分词器以词为单位进行分词,获得所述句子文本的词集合,利用中文预训练所述词集合,获得所述第一词向量矩阵;
将所述句子文本通过分词器以字为单位进行分词,获得所述句子文本的字集合,随机初始化所述字集合,获得所述第一字向量矩阵。
3.根据权利要求1所述的文本表征方法,其特征在于,所述将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵的步骤,包括:
以所述第一字向量矩阵为key向量和value向量,所述第一词向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述词信息背景矩阵,所述词信息背景矩阵以字信息为背景元素;
以所述第一词向量矩阵为key向量和value向量,所述第一字向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述字信息背景矩阵,所述字信息背景矩阵以词信息为背景元素;
其中,所述预设公式为:
Figure FDA0002774125270000021
Q表示query向量,K表示key向量,V表示value向量,dk表示所述key向量的维度。
4.根据权利要求1所述的文本表征方法,其特征在于,所述将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层的步骤,包括:
将所述第二词向量矩阵和所述第二字向量矩阵通向双向长短记忆神经网络层进行深层编码,得到所述词矩阵层和所述字矩阵层。
5.根据权利要求1所述的文本表征方法,其特征在于,所述将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果的步骤之后,包括:
通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别;
根据所述句子文本的离散概率向量构建文本分类任务。
6.根据权利要求5所述的文本表征方法,其特征在于,所述通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别的步骤之后,所述方法还包括:
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure FDA0002774125270000031
у表示所述真实类别中的真实概率分布,
Figure FDA0002774125270000032
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
7.一种文本表征装置,其特征在于,包括:
输入模块,用于接收输入的句子文本;
分词模块,用于对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
结合模块,用于将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
第一拼接模块,用于将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
编码模块,用于将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
第二拼接模块,用于将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
8.根据权利要求7所述的文本表征装置,其特征在于,还包括,
对比模块,用于通过Softmax对所述矩阵拼接模块获得的所述完整编码层进行归一化处理,获得所述句子文本的模型预测类别;
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
Figure FDA0002774125270000041
у表示所述真实类别中的真实概率分布,
Figure FDA0002774125270000042
表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行根据权利要求1至6中任意一项所述的文本表征方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行根据权利要求1至6中任意一项所述的文本表征方法。
CN202011259325.3A 2020-11-12 2020-11-12 文本表征方法、装置及计算机设备 Active CN112364666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011259325.3A CN112364666B (zh) 2020-11-12 2020-11-12 文本表征方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011259325.3A CN112364666B (zh) 2020-11-12 2020-11-12 文本表征方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112364666A true CN112364666A (zh) 2021-02-12
CN112364666B CN112364666B (zh) 2023-12-08

Family

ID=74514402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011259325.3A Active CN112364666B (zh) 2020-11-12 2020-11-12 文本表征方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112364666B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218351A (zh) * 2021-11-26 2022-03-22 北京工业大学 文本检索方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110968697A (zh) * 2019-12-20 2020-04-07 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111046671A (zh) * 2019-12-12 2020-04-21 中国科学院自动化研究所 基于图网络融入词典的中文命名实体识别方法
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
WO2020124959A1 (zh) * 2018-12-21 2020-06-25 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其装置
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020124959A1 (zh) * 2018-12-21 2020-06-25 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其装置
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN111046671A (zh) * 2019-12-12 2020-04-21 中国科学院自动化研究所 基于图网络融入词典的中文命名实体识别方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110968697A (zh) * 2019-12-20 2020-04-07 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张默涵: "基于字词混合向量的CNN—LSTM短文本分类", 《计算机应用技术》, pages 77 - 80 *
陈欣 等: "基于BLSTM算法和字词融合的文本情感分类方法", 《中国计量大学学报》, vol. 31, no. 2, pages 225 - 232 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218351A (zh) * 2021-11-26 2022-03-22 北京工业大学 文本检索方法及装置

Also Published As

Publication number Publication date
CN112364666B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN107085581B (zh) 短文本分类方法和装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN111858843B (zh) 一种文本分类方法及装置
CN113553848B (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN109117470B (zh) 一种评价文本信息的评价关系提取方法及装置
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质
CN117670017B (zh) 一种基于事件的风险识别方法、装置以及电子设备
CN112364666B (zh) 文本表征方法、装置及计算机设备
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant