CN113836928A - 文本实体生成方法、装置、设备及存储介质 - Google Patents

文本实体生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113836928A
CN113836928A CN202111139770.0A CN202111139770A CN113836928A CN 113836928 A CN113836928 A CN 113836928A CN 202111139770 A CN202111139770 A CN 202111139770A CN 113836928 A CN113836928 A CN 113836928A
Authority
CN
China
Prior art keywords
text
matrix
target
entity
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111139770.0A
Other languages
English (en)
Other versions
CN113836928B (zh
Inventor
于凤英
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111139770.0A priority Critical patent/CN113836928B/zh
Publication of CN113836928A publication Critical patent/CN113836928A/zh
Application granted granted Critical
Publication of CN113836928B publication Critical patent/CN113836928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能领域,公开了一种文本实体生成方法、装置、设备及存储介质,用于提高文本实体生成的准确率。所述文本实体生成方法包括:基于预置的语料库对目标新闻文本进行矩阵转换,得到文本矩阵;提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量;通过预置的图神经网络模型中的编码器对编码向量进行词嵌入处理,得到隐藏状态向量;通过预置的图神经网络模型中的解码器对隐藏状态向量进行实体识别,得到目标文本实体。此外,本发明还涉及区块链技术,目标文本实体可存储于区块链节点中。

Description

文本实体生成方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本实体生成方法、装置、设备及存储介质。
背景技术
近年来,文本信息的提取受到业界和学界的广泛关注,其中的文本实体生成在之前的大量工作中已经得到了很好的研究,文本实体生成的主要目的是从一段文本中抽取出特定类型的实体,实体类型包括人名、地名、时间和机构名等,文本实体可以是一种特殊形式的实体,识别出的实体中可能会包括其他实体。
现有方案通过依赖分析的模式发现文本实体,但是在模式发现的过程中会丢失文本实体周围的丰富信息,同时抽取到的文本实体会出现属性抽取错误的情况,即现有方案的准确率低。
发明内容
本发明提供了一种文本实体生成方法、装置、设备及存储介质,用于提高文本实体生成的准确率。
本发明第一方面提供了一种文本实体生成方法,所述文本实体生成方法包括:获取待处理的目标新闻文本;基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
可选的,在本发明第一方面的第一种实现方式中,在所述获取待处理的目标新闻文本之前,还包括:获取待处理的样本文本,并对所述样本文本进行预处理,得到样本文本矩阵;基于预置的训练模型和预设规则对所述样本文本矩阵进行文本实体生成,得到样本实体;基于所述样本实体对所述训练模型进行参数调整,直至所述训练模型收敛,得到图神经网络模型。
可选的,在本发明第一方面的第二种实现方式中,所述基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵,包括:基于预置的语料库对所述目标新闻文本进行字符特征提取,得到多个字符特征;通过预置的图注意力层对所述多个字符特征进行矩阵映射,得到文本矩阵。
可选的,在本发明第一方面的第三种实现方式中,所述提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵,包括:通过预置的得分函数计算所述文本矩阵对应的得分矩阵;对所述得分矩阵进行特征提取,得到特征元素;对所述特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
可选的,在本发明第一方面的第四种实现方式中,所述对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量,包括:通过预置的余弦相似度法对所述文本矩阵和所述目标特征矩阵进行相似度计算,得到目标相似度;基于所述目标相似度对所述文本矩阵进行编码运算,得到编码向量。
可选的,在本发明第一方面的第五种实现方式中,所述通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量,包括:通过预置图神经网络模型中的编码器对所述编码向量进行分词运算,得到多个词向量;对所述多个词向量进行语义特征提取,得到每个词向量对应的特征值,并基于每个词向量对应的特征值生成隐藏状态向量。
可选的,在本发明第一方面的第六种实现方式中,所述通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体,包括:通过预置图神经网络模型中的解码器对所述隐藏状态向量进行序列评分,得到预测标签序列;对所述预测标签序列进行实体预测,得到目标文本实体。
本发明第二方面提供了一种文本实体生成装置,所述文本实体生成装置包括:获取模块,用于获取待处理的目标新闻文本;转换模块,用于基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;特征编码模块,用于提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;注意力编码模块,用于对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;嵌入模块,用于通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;识别模块,用于通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
可选的,在本发明第二方面的第一种实现方式中,所述文本实体生成装置还包括:训练模块,用于获取待处理的样本文本,并对所述样本文本进行预处理,得到样本文本矩阵;基于预置的训练模型和预设规则对所述样本文本矩阵进行文本实体生成,得到样本实体;基于所述样本实体对所述训练模型进行参数调整,直至所述训练模型收敛,得到图神经网络模型。
可选的,在本发明第二方面的第二种实现方式中,所述转换模块具体用于:基于预置的语料库对所述目标新闻文本进行字符特征提取,得到多个字符特征;通过预置的图注意力层对所述多个字符特征进行矩阵映射,得到文本矩阵。
可选的,在本发明第二方面的第三种实现方式中,所述特征编码模块具体用于:通过预置的得分函数计算所述文本矩阵对应的得分矩阵;对所述得分矩阵进行特征提取,得到特征元素;对所述特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
可选的,在本发明第二方面的第四种实现方式中,所述注意力编码模块具体用于:通过预置的余弦相似度法对所述文本矩阵和所述目标特征矩阵进行相似度计算,得到目标相似度;基于所述目标相似度对所述文本矩阵进行编码运算,得到编码向量。
可选的,在本发明第二方面的第五种实现方式中,所述嵌入模块具体用于:通过预置图神经网络模型中的编码器对所述编码向量进行分词运算,得到多个词向量;对所述多个词向量进行语义特征提取,得到每个词向量对应的特征值,并基于每个词向量对应的特征值生成隐藏状态向量。
可选的,在本发明第二方面的第六种实现方式中,所述识别模块具体用于:通过预置图神经网络模型中的解码器对所述隐藏状态向量进行序列评分,得到预测标签序列;对所述预测标签序列进行实体预测,得到目标文本实体。
本发明第三方面提供了一种文本实体生成设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述文本实体生成设备执行上述的文本实体生成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的文本实体生成方法。
本发明提供的技术方案中,通过获取待处理的目标新闻文本,并对目标新闻文本进行预处理,预处理具体包括:基于预置的语料库对目标新闻文本进行矩阵转换,得到文本矩阵;提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量;通过预置图神经网络模型对编码向量进行文本实体生成,得到目标文本实体。本发明通过图神经网络模型对目标新闻文本进行实体识别,神经网络模型有效提高了文本实体生成的准确率。
附图说明
图1为本发明实施例中文本实体生成方法的一个实施例示意图;
图2为本发明实施例中文本实体生成方法的另一个实施例示意图;
图3为本发明实施例中文本实体生成装置的一个实施例示意图;
图4为本发明实施例中文本实体生成装置的另一个实施例示意图;
图5为本发明实施例中文本实体生成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本实体生成方法、装置、设备及存储介质,用于提高文本实体生成的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文本实体生成方法的第一个实施例包括:
101、获取待处理的目标新闻文本;
可以理解的是,本发明的执行主体可以为文本实体生成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体的,服务器从预置的数据库中查询待处理的目标新闻文本,其中,预置的数据库中包括多个新闻文本,服务器根据用户输入的名称从预置的数据库中匹配关键词,服务器将关键词所在的新闻文本作为目标新闻文本。
102、基于预置的语料库对目标新闻文本进行矩阵转换,得到文本矩阵;
需要说明的是,预置的语料库设置为D={(d1,y1),(d2,y2),...,(dk,yk)},其中,D表示语料库,dk表示第k个新闻文本,yk表示第k个新闻文本的隐式实体列表。服务器进行矩阵转换是通过预置的语料库计算目标新闻文本的字符特征,得到文本矩阵,具体为,服务器计算多个字符特征的注意力系数,服务器根据注意力系数对字符特征进行矩阵转换,得到文本矩阵。文本矩阵可以表示为:
Figure BDA0003283339330000051
其中,
Figure BDA0003283339330000061
表示输入矩阵,
Figure BDA0003283339330000062
Figure BDA0003283339330000063
需要训练的可学习参数。
103、提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;
具体的,服务器提取文本矩阵中的矩阵元素,将矩阵元素作为特征元素。服务器进行特征编码处理是通过注意力头机制对特征元素和参数矩阵进行编码。
需要说明的是,预置的参数矩阵是描述网络参数的矩阵,具体包括:连接多注意力头的所有计算结果,图注意力层的输出计算如下:
Figure BDA0003283339330000064
其中,
Figure BDA0003283339330000065
Figure BDA0003283339330000066
是预置的可学习参数矩阵,H是注意力头的数量,dinput=dxHo,H/h=1表示H层隐层输出进行拼接,注意力头机制采用“编码-解码”的方式进行序列到序列的转换,即编码和解码过程中在长距离信息传递中的信息丢失问题,通过引入注意力头机制,将文本矩阵中每个位置的信息都保存下来,在解码过程中生成每一个目标特征矩阵时,通过注意力机制直接从文本矩阵的信息中选择相关的信息作为辅助,以矩阵形式表示的网络参数称为参数矩阵并且参数矩阵中的每一个元素都有固定的意义。
104、对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量;
具体的,服务器进行进行注意力编码的具体过程包括:服务器通过注意力机制计算参数更新的梯度,服务器将预置的线性回归函数作为每个支持样例的梯度比例,服务器基于梯度比例对梯度值进行加权平均计算,得到目标梯度值,目标梯度值用于对文本矩阵和目标特征矩阵进行注意力编码。
105、通过预置的图神经网络模型中的编码器对编码向量进行词嵌入处理,得到隐藏状态向量;
需要说明的是,预置的图神经网络模型中的编码器用于对编码向量的特征信息进行分析计算,对编码向量的特征信息进行动态更新,使更新后的特征信息与编码向量进行词嵌入处理时更快获得特征值,将特征值生成隐藏状态向量。
106、通过预置的图神经网络模型中的解码器对隐藏状态向量进行实体识别,得到目标文本实体。
需要说明的是,服务器将数据中的人名、地名、时间、日期等专有名词及事物表示为文本实体,预置的图神经网络模型中的解码器通过计算文本实体与隐藏状态向量的关系,并建立文本实体与隐藏状态向量知识图谱,知识图谱包括实体关系和关系类别,进而获取目标文本实体。
进一步地,服务器将目标文本实体存储于区块链数据库中,具体此处不做限定。
本发明实施例中,通过提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量,本发明通过图神经网络模型对目标新闻文本进行实体识别,提高了目标新闻文本与目标文本实体之间的联系,从而提高了文本实体生成的准确率。
请参阅图2,本发明实施例中文本实体生成方法的第二个实施例包括:
201、获取待处理的目标新闻文本;
本实施例中步骤201的具体实施方式与步骤101类似,此处不再赘述。
需要说明的是,图神经网络模型的训练过程具体包括:服务器获取待处理的样本文本,并对样本文本进行预处理,得到样本文本矩阵;服务器基于预置的训练模型和预设规则对样本文本矩阵进行文本实体生成,得到样本实体;服务器基于样本实体对训练模型进行参数调整,直至训练模型收敛,得到图神经网络模型。
其中,样本文本是从新闻网站中获取到的新闻文稿数据,服务器对样本文本进行预处理具体为:文本语料中简体与繁体共存,这会加大模型的学习难度,因此对数据进行繁体转简体的处理过滤掉对分类没有任何作用的停用词,从而降低了噪声得到标准样本文本,服务器再将标准样本文本通过语料库进行矩阵转换,得到样本文本矩阵,预置的训练模型是词向量模型-base-chinese,预设规则是通过在训练模型中添加两个子任务,第一个子任务是原本通过遮罩的语言建模任务的变体,第二个子任务是以[CLS]位置上的向量预测所有被遮罩的实体,服务器通过获得实体名称的语义信息及其向量表示,服务器在原词向量模型词汇表的基础中添加一个实体名称列表,用词向量模型作为训练模型,同时在两个子任务上加以训练,第一个子任务是原本通过遮罩的语言建模任务的变体,与原始任务不同的是,对样本文本提及的所有实体加以遮罩;第二个子任务是以[CLS]位置上的向量预测所有被遮罩的实体,通过以上子任务方式,得到图神经网络模型。
202、基于预置的语料库对目标新闻文本进行矩阵转换,得到文本矩阵;
具体的,服务器基于预置的语料库对目标新闻文本进行字符特征提取,得到多个字符特征;服务器通过预置的图注意力层对多个字符特征进行矩阵映射,得到文本矩阵。服务器从目标新闻文本中被切割和归一处理后的字符中,提取最能体现这个字符特点的多个字符特征,服务器通过逐像素特征提取法,得到多个字符特征,服务器对目标新闻文本进行逐行逐列的扫描,黑色像素特征值取1,白色像素特征值取0,服务器通过预置的图注意力层进行矩阵映射运算,最后形成一个维数与图像中像素点的个数相同的特征向量矩阵,得到文本矩阵。
需要说明的是,矩阵映射运算可以表示为两个文本实体和在预置的语料库中一起出现的频率可以定义如下:
Figure BDA0003283339330000081
其中的[*]表示艾佛森括号,即二者同时为1时结果为1;文本矩阵M可以看作是关联图的邻接矩阵表示,Mij是节点i和j之间的边的值,用于量化实体和之间的关联程度。
其中,服务器进行矩阵映射的具体过程包括:服务器计算多个字符特征的注意力系数,服务器根据注意力系数对字符特征进行矩阵转换,得到文本矩阵。
203、提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;
具体的,服务器通过预置的得分函数计算文本矩阵对应的得分矩阵;服务器对得分矩阵进行特征提取,得到特征元素;服务器对特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
其中,服务器通过注意力头对特征元素进行编码,服务器将离散的特征元素的取值扩展到欧式空间,离散的特征元素中某个取值就对应欧式空间的某个点,服务器将离散特征元素通过独热向量编码映射到欧式空间,服务器计算特征之间的距离。需要说明的是,得分矩阵中包括多个矩阵元素,服务器提取得分矩阵中的矩阵元素并将这些矩阵元素作为特征元素,此外,预置的得分函数可以为:
Figure BDA0003283339330000091
其中,N[i]={j:Mi,j>0}表示节点i的闭邻域集,
Figure BDA0003283339330000092
h表示第h个多头注意力矩阵。服务器通过上述公式计算出得分矩阵中的矩阵元素并将这些矩阵元素作为特征元素,服务器通过对特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
204、对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量;
具体的,服务器通过预置的余弦相似度法对文本矩阵和目标特征矩阵进行相似度计算,得到目标相似度;服务器基于目标相似度对文本矩阵进行编码运算,得到编码向量。
其中,服务器通过图注意力层替换原本的自注意力层,服务器通过自注意力层中的注意力编码机制对文本矩阵和目标特征矩阵进行编码,得到编码向量。服务器提取文本矩阵和目标特征矩阵中的矩阵元素,服务器根据矩阵元素计算文本矩阵和目标特征矩阵的余弦相似度,服务器基于余弦相似度和预置的多头注意力机制生成目标特征矩阵。
205、通过预置的图神经网络模型中的编码器对编码向量进行分词运算,得到多个词向量;
具体的,服务器通过预置图神经网络模型中的编码器对编码向量进行分词运算,得到多个词向量。
需要说明的是,预置图神经网络模型中的编码器其输入是候选实体的向量表示,通过词向量模型来训练,输出是实体嵌入,服务器对编码向量进行分词运算,通过对编码向量进行分词运算得到多个词向量。
其中,服务器通过分词运算将编码向量分成多个具有完整语义的词。分词运算是为了分析出编码向量的整体感情色彩,通过词频统计、概率统计需要分析完整语义的词,服务器通过多个词向量间的求余弦可以计算出相对应的目标值,目标用于分析计算对应词的属性。
206、对多个词向量进行语义特征提取,得到每个词向量对应的特征值,并基于每个词向量对应的特征值生成隐藏状态向量;
具体的,服务器对多个词向量进行语义特征提取,得到每个词向量对应的特征值,服务器将特征值按照文本顺序进行排序,得到隐藏状态向量。其中,预置图神经网络模型中的编码器,其输入是候选实体的向量表示,通过词向量模型来训练编码器,输出是隐藏状态向量,隐藏状态向量的实体嵌入的生成过程是静态的,因为它与来自输入文章的内容信息无关。
需要说明的是,编码器是一类图嵌入算法,其目的是通过神经网络结构将图的顶点表示为低维向量,通过多层感知机作为编码器来获取节点嵌入,其中解码器重建节点的邻域统计信息。
207、通过预置图神经网络模型中的解码器对隐藏状态向量进行序列评分,得到预测标签序列;
具体的,预置图神经网络模型中的解码器的输入是上下文的词嵌入,即隐藏状态向量,服务器通过隐藏状态向量用于预测隐式实体列表。
其中,服务器通过预置图神经网络模型中的解码器对隐藏状态向量进行序列评分,得到预测标签序列,服务器通过解码器对隐藏状态向量进行处理,服务器对预置的实体列表进行打分,得到预测标签序列。
需要说明的是,解码器生成合理的随机行走序列,服务器通过解码器区分伪造的随机行走序列和真实的随机行走序列,服务器对隐藏状态向量进行正则化,得到预测标签序列。
208、对预测标签序列进行实体预测,得到目标文本实体。
具体的,服务器根据预测标签序列进行实体预测,得到目标文本实体,其中,服务器通过预置的实体列表对预测标签序列进行匹配,得到文本实体的排序,服务器将匹配得到的概率最大的实体作为目标文本实体。
进一步地,服务器将目标文本实体存储于区块链数据库中,具体此处不做限定。
本发明实施例中,通过图神经网络模型中的解码器对隐藏状态向量进行序列评分,得到预测标签序列;对预测标签序列进行实体预测,得到目标文本实体,本发明通过图神经网络模型中的编码器和解码器对编码向量进行处理,提高了对目标新闻文本识别的准确率进而提高了文本实体生成的准确率。
上面对本发明实施例中文本实体生成方法进行了描述,下面对本发明实施例中文本实体生成装置进行描述,请参阅图3,本发明实施例中文本实体生成装置第一个实施例包括:
获取模块301,用于获取待处理的目标新闻文本;
转换模块302,用于基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;
特征编码模块303,用于提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;
注意力编码模块304,用于对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;
嵌入模块305,用于通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;
识别模块306,用于通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
本发明实施例中,通过提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量,本发明通过图神经网络模型对目标新闻文本进行实体识别,提高了目标新闻文本与目标文本实体之间的联系,从而提高了文本实体生成的准确率。
请参阅图4,本发明实施例中文本实体生成装置第二个实施例包括:
获取模块301,用于获取待处理的目标新闻文本;
转换模块302,用于基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;
特征编码模块303,用于提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;
注意力编码模块304,用于对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;
嵌入模块305,用于通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;
识别模块306,用于通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
可选的,文本实体生成装置还包括:
训练模块307,用于获取待处理的样本文本,并对所述样本文本进行预处理,得到样本文本矩阵;基于预置的训练模型和预设规则对所述样本文本矩阵进行文本实体生成,得到样本实体;基于所述样本实体对所述训练模型进行参数调整,直至所述训练模型收敛,得到图神经网络模型。
可选的,转换模块302具体用于:
基于预置的语料库对所述目标新闻文本进行字符特征提取,得到多个字符特征;通过预置的图注意力层对所述多个字符特征进行矩阵映射,得到文本矩阵。
可选的,特征编码模块303具体用于:
通过预置的得分函数计算所述文本矩阵对应的得分矩阵;对所述得分矩阵进行特征提取,得到特征元素;对所述特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
可选的,注意力编码模块304具体用于:
通过预置的余弦相似度法对所述文本矩阵和所述目标特征矩阵进行相似度计算,得到目标相似度;基于所述目标相似度对所述文本矩阵进行编码运算,得到编码向量。
可选的,嵌入模块305具体用于:
通过预置图神经网络模型中的编码器对所述编码向量进行分词运算,得到多个词向量;对所述多个词向量进行语义特征提取,得到每个词向量对应的特征值,并基于每个词向量对应的特征值生成隐藏状态向量。
可选的,识别模块306具体用于:
通过预置图神经网络模型中的解码器对所述隐藏状态向量进行序列评分,得到预测标签序列;对所述预测标签序列进行实体预测,得到目标文本实体。
本发明实施例中,通过提取文本矩阵中的特征元素,并基于预置的参数矩阵对特征元素进行特征编码处理,得到目标特征矩阵;对文本矩阵和目标特征矩阵进行注意力编码,得到编码向量,本发明通过图神经网络模型对目标新闻文本进行实体识别,提高了目标新闻文本与目标文本实体之间的联系,从而提高了文本实体生成的准确率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的文本实体生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中文本实体生成设备进行详细描述。
图5是本发明实施例提供的一种文本实体生成设备的结构示意图,该文本实体生成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文本实体生成设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在文本实体生成设备500上执行存储介质530中的一系列计算机程序操作。
文本实体生成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的文本实体生成设备结构并不构成对文本实体生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种文本实体生成设备,所述文本实体生成设备包括存储器和处理器,存储器中存储有计算机可读计算机程序,计算机可读计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述文本实体生成方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述文本实体生成方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本实体生成方法,其特征在于,所述文本实体生成方法包括:
获取待处理的目标新闻文本;
基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;
提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;
对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;
通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;
通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
2.根据权利要求1所述的文本实体生成方法,其特征在于,在所述获取待处理的目标新闻文本之前,还包括:
获取待处理的样本文本,并对所述样本文本进行预处理,得到样本文本矩阵;
基于预置的训练模型和预设规则对所述样本文本矩阵进行文本实体生成,得到样本实体;
基于所述样本实体对所述训练模型进行参数调整,直至所述训练模型收敛,得到图神经网络模型。
3.根据权利要求1所述的文本实体生成方法,其特征在于,所述基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵,包括:
基于预置的语料库对所述目标新闻文本进行字符特征提取,得到多个字符特征;
通过预置的图注意力层对所述多个字符特征进行矩阵映射,得到文本矩阵。
4.根据权利要求1所述的文本实体生成方法,其特征在于,所述提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵,包括:
通过预置的得分函数计算所述文本矩阵对应的得分矩阵;
对所述得分矩阵进行特征提取,得到特征元素;
对所述特征元素和预置的参数矩阵进行注意力头编码,得到目标特征矩阵。
5.根据权利要求1所述的文本实体生成方法,其特征在于,所述对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量,包括:
对所述文本矩阵和所述目标特征矩阵进行相似度计算,得到目标相似度;
基于所述目标相似度对所述文本矩阵进行编码运算,得到编码向量。
6.根据权利要求1所述的文本实体生成方法,其特征在于,所述通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量,包括:
通过预置图神经网络模型中的编码器对所述编码向量进行分词运算,得到多个词向量;
对所述多个词向量进行语义特征提取,得到每个词向量对应的特征值,并基于每个词向量对应的特征值生成隐藏状态向量。
7.根据权利要求1-6中任一项所述的文本实体生成方法,其特征在于,所述通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体,包括:
通过预置图神经网络模型中的解码器对所述隐藏状态向量进行序列评分,得到预测标签序列;
对所述预测标签序列进行实体预测,得到目标文本实体。
8.一种文本实体生成装置,其特征在于,所述文本实体生成装置包括:
获取模块,用于获取待处理的目标新闻文本;
转换模块,用于基于预置的语料库对所述目标新闻文本进行矩阵转换,得到文本矩阵;
特征编码模块,用于提取所述文本矩阵中的特征元素,并基于预置的参数矩阵对所述特征元素进行特征编码处理,得到目标特征矩阵;
注意力编码模块,用于对所述文本矩阵和所述目标特征矩阵进行注意力编码,得到编码向量;
嵌入模块,用于通过预置的图神经网络模型中的编码器对所述编码向量进行词嵌入处理,得到隐藏状态向量;
识别模块,用于通过预置的图神经网络模型中的解码器对所述隐藏状态向量进行实体识别,得到目标文本实体。
9.一种文本实体生成设备,其特征在于,所述文本实体生成设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述文本实体生成设备执行如权利要求1-7中任一项所述的文本实体生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文本实体生成方法。
CN202111139770.0A 2021-09-28 2021-09-28 文本实体生成方法、装置、设备及存储介质 Active CN113836928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111139770.0A CN113836928B (zh) 2021-09-28 2021-09-28 文本实体生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111139770.0A CN113836928B (zh) 2021-09-28 2021-09-28 文本实体生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113836928A true CN113836928A (zh) 2021-12-24
CN113836928B CN113836928B (zh) 2024-02-27

Family

ID=78970766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111139770.0A Active CN113836928B (zh) 2021-09-28 2021-09-28 文本实体生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113836928B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409617A (zh) * 2022-11-01 2022-11-29 北京联合货币兑换股份有限公司 基于区块链的外币兑换方法及其系统
CN115630651A (zh) * 2022-10-24 2023-01-20 北京百度网讯科技有限公司 文本生成方法和文本生成模型的训练方法、装置
CN116152383A (zh) * 2023-03-06 2023-05-23 深圳优立全息科技有限公司 一种体素模型与图像生成方法、设备及存储介质
CN116227487A (zh) * 2023-01-10 2023-06-06 浙江法之道信息技术有限公司 一种法律文本风险点智能审核系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN111126056A (zh) * 2019-12-06 2020-05-08 北京明略软件系统有限公司 一种识别触发词的方法及装置
CN111552810A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 实体抽取与分类方法、装置、计算机设备和存储介质
CN111966811A (zh) * 2020-09-25 2020-11-20 平安直通咨询有限公司上海分公司 意图识别和槽填充方法、装置、可读存储介质及终端设备
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN113239668A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
CN113297346A (zh) * 2021-06-28 2021-08-24 中国平安人寿保险股份有限公司 文本意图识别方法、装置、设备及存储介质
CN113435203A (zh) * 2021-08-30 2021-09-24 华南师范大学 多模态命名实体识别方法、装置以及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111126056A (zh) * 2019-12-06 2020-05-08 北京明略软件系统有限公司 一种识别触发词的方法及装置
CN111552810A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 实体抽取与分类方法、装置、计算机设备和存储介质
CN111966811A (zh) * 2020-09-25 2020-11-20 平安直通咨询有限公司上海分公司 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
CN113239668A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN113297346A (zh) * 2021-06-28 2021-08-24 中国平安人寿保险股份有限公司 文本意图识别方法、装置、设备及存储介质
CN113435203A (zh) * 2021-08-30 2021-09-24 华南师范大学 多模态命名实体识别方法、装置以及电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630651A (zh) * 2022-10-24 2023-01-20 北京百度网讯科技有限公司 文本生成方法和文本生成模型的训练方法、装置
CN115409617A (zh) * 2022-11-01 2022-11-29 北京联合货币兑换股份有限公司 基于区块链的外币兑换方法及其系统
CN115409617B (zh) * 2022-11-01 2022-12-27 北京联合货币兑换股份有限公司 基于区块链的外币兑换方法及其系统
CN116227487A (zh) * 2023-01-10 2023-06-06 浙江法之道信息技术有限公司 一种法律文本风险点智能审核系统
CN116227487B (zh) * 2023-01-10 2023-11-10 浙江法之道信息技术有限公司 一种法律文本风险点智能审核系统
CN116152383A (zh) * 2023-03-06 2023-05-23 深圳优立全息科技有限公司 一种体素模型与图像生成方法、设备及存储介质
CN116152383B (zh) * 2023-03-06 2023-08-11 深圳优立全息科技有限公司 一种体素模型与图像生成方法、设备及存储介质

Also Published As

Publication number Publication date
CN113836928B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN113836928B (zh) 文本实体生成方法、装置、设备及存储介质
CN110765265A (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN112507061A (zh) 多关系医学知识提取方法、装置、设备及存储介质
CN110222168A (zh) 一种数据处理的方法及相关装置
CN113656547A (zh) 文本匹配方法、装置、设备及存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113220865A (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN116821285A (zh) 基于人工智能的文本处理方法、装置、设备及介质
CN113836929A (zh) 命名实体识别方法、装置、设备及存储介质
CN117079310A (zh) 一种图文多模态融合的行人重识别方法
CN116956925A (zh) 电子病历命名实体识别方法和装置、电子设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法
CN115203372A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN114936326A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115238124A (zh) 视频人物检索方法、装置、设备和存储介质
CN113792540A (zh) 意图识别模型更新方法及相关设备
CN113611427A (zh) 用户画像生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant