CN111126059B - 一种短文文本的生成方法、生成装置及可读存储介质 - Google Patents
一种短文文本的生成方法、生成装置及可读存储介质 Download PDFInfo
- Publication number
- CN111126059B CN111126059B CN201911344367.4A CN201911344367A CN111126059B CN 111126059 B CN111126059 B CN 111126059B CN 201911344367 A CN201911344367 A CN 201911344367A CN 111126059 B CN111126059 B CN 111126059B
- Authority
- CN
- China
- Prior art keywords
- text
- matrix
- time sequence
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 425
- 239000013598 vector Substances 0.000 claims abstract description 283
- 230000001537 neural effect Effects 0.000 claims abstract description 221
- 238000013528 artificial neural network Methods 0.000 claims abstract description 125
- 230000011218 segmentation Effects 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 39
- 239000003999 initiator Substances 0.000 claims description 23
- 238000010845 search algorithm Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229940034610 toothpaste Drugs 0.000 description 1
- 239000000606 toothpaste Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种短文文本的生成方法、生成装置及可读存储介质,所述生成方法包括:基于获取到的文本信息,确定出文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;并通过训练好的神经网络的编码层,确定出文本信息对应的编码信息矩阵;再通过训练好的神经网络的解码层中的时序神经网络,确定出时序神经网络中每个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,从而生成文本信息对应的短文文本。通过加入文本信息对应的文本长度向量以及扩充属性矩阵,能够更加准确的生成文本信息对应的对短文文本,并能够对短文文本的生成长度进行控制,有助于提高短文文本的生成质量以及短文文本的可阅读性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种短文文本的生成方法、生成装置及可读存储介质。
背景技术
短文文本生成,即能够从获取到的文本信息中提取出关键信息,然后再根据这些关键信息及这些关键信息需要应用的应用环境,经过规划来生成一段高质量的短文文本。
目前,短文文本内容的创作主要依赖于人员根据资源的特征等,人为的对短文文本的内容进行设计,人工设计并撰写出的短文文本的内容质量良好、可阅读性强,但是人为的根据获取到的资源特征进行短文文本内容的设计与撰写,文本的生成速度慢且效率低。
发明内容
有鉴于此,本申请的目的在于提供一种短文文本的生成方法、生成装置及可读存储介质,通过加入文本信息对应的文本长度矩阵以及扩充属性矩阵,能够更加准确的生成文本信息对应的对短文文本,并能够对短文文本的生成长度进行控制,有助于提高短文文本的生成质量、生成效率以及短文文本的可读性。
本申请实施例提供了一种短文文本的生成方法,所述生成方法包括:
基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;
将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;
将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;
基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;
针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;
基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;
基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
进一步的,所述基于获取到的文本信息,得到与所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵,包括:
对获取到的文本信息进行规范化处理,确定出所述文本信息对应的规范化文本信息以及所述规范化文本信息的字符数量,并基于所述字符数量,确定出所述文本信息对应的文本长度向量;
对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵;
从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息确定所述文本信息的扩充属性矩阵。
进一步的,所述对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵,包括:
对所述规范化文本信息的进行分词处理,确定出所述规范化文本信息中的各个分词;
针对于每一个分词,对所述分词进行分词向量处理,确定出每个分词对应的分词向量;
基于多个所述分词向量,确定出所述文本信息对应的文本词向量矩阵。
进一步的,所述将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵,包括:
将所述文本词向量矩阵以及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定所述文本词向量矩阵对应的文本序列矩阵,以及所述扩充属性矩阵对应的加权属性矩阵;
对所述文本序列矩阵、所述文本长度向量以及所述加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
进一步的,通过以下步骤确定所述文本词向量矩阵对应的文本序列矩阵:
将所述文本词向量矩阵输入至训练好的神经网络的编码层的记忆神经网络中,得到所述文本词向量矩阵对应的上下文信息矩阵;
对所述上下文信息矩阵进行注意力机制处理,确定所述文本词向量矩阵对应的文本序列矩阵。
进一步的,通过以下步骤确定所述扩充属性矩阵对应的加权属性矩阵:
对所述扩充属性矩阵进行注意力机制处理,确定所述扩充属性矩阵对应的加权属性矩阵。
进一步的,所述基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,包括:
基于所述文本信息,获取与所述文本信息对应的分词词表;
基于所述编码信息矩阵、所述文本长度向量以及所述时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并将各个分词的生成得分转化为对应的生成概率;
按照所述集束搜索算法中预先设置的集束宽度以及各个分词的生成概率,确定出下一个时序神经单元对应的至少一个目标分词,并将每个目标分词转换为词向量。
本申请实施例还提供了一种短文文本的生成装置,所述生成装置包括:
获取模块,用于基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;
编码模块,用于将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;
第一解码模块,用于将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;
第一确定模块,用于基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;
第二确定模块,用于针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;
第二解码模块,用于基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;
短文生成模块,用于基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
进一步的,所述获取模块在用于基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵时,所述获取模块具体用于:
对获取到的文本信息进行规范化处理,确定出所述文本信息对应的规范化文本信息以及所述规范化文本信息的字符数量,并基于所述字符数量,确定出所述文本信息对应的文本长度向量;
对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵;
从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息确定所述文本信息的扩充属性矩阵。
进一步的,所述获取模块在用于对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵时,所述获取模块具体用于:
对所述规范化文本信息的进行分词处理,确定出所述规范化文本信息中的各个分词;
针对于每一个分词,对所述分词进行分词向量处理,确定出每个分词对应的分词向量;
基于多个所述分词向量,确定出所述文本信息对应的文本词向量矩阵。
进一步的,所述编码模块在用于将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵时,所述编码模块模块具体用于:
将所述文本词向量矩阵以及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定所述文本词向量矩阵对应的文本序列矩阵,以及所述扩充属性矩阵对应的加权属性矩阵;
对所述文本序列矩阵、所述文本长度向量以及所述加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
进一步的,所述编码模块用于通过以下步骤确定所述文本词向量矩阵对应的文本序列矩阵:
将所述文本词向量矩阵输入至训练好的神经网络的编码层的记忆神经网络中,得到所述文本词向量矩阵对应的上下文信息矩阵;
对所述上下文信息矩阵进行注意力机制处理,确定所述文本词向量矩阵对应的文本序列矩阵。
进一步的,所述编码模块用于通过以下步骤确定所述扩充属性矩阵对应的加权属性矩阵:
对所述扩充属性矩阵进行注意力机制处理,确定所述扩充属性矩阵对应的加权属性矩阵。
进一步的,第二解码模块在用于基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量时,所述第二解码模块具体用于:
基于所述文本信息,获取与所述文本信息对应的分词词表;
基于所述编码信息矩阵、所述文本长度向量以及所述时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并将各个分词的生成得分转化为对应的生成概率;
按照所述集束搜索算法中预先设置的集束宽度以及各个分词的生成概率,确定出下一个时序神经单元对应的至少一个目标分词,并将每个目标分词转换为词向量。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的短文文本的生成方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的短文文本的生成方法的步骤。
本申请实施例提供的短文文本的生成方法、生成装置及可读存储介质,基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
这样,本申请通过获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及文本特征向量,并通过神经网络的编码层以及神经网络的解码层,确定出文本信息对应的短文文本。从而通过加入文本信息对应的文本长度矩阵以及扩充属性矩阵,能够更加准确的生成文本信息对应的对短文文本,并能够对短文文本的生成长度进行控制,有助于提高短文文本的生成质量、生成效率以及短文文本的可读性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种短文文本的生成方法的流程图;
图2为文本词向量矩阵、文本长度向量以及扩充属性矩阵确定方法的流程图;
图3为本申请实施例所提供的一种短文文本的生成装置的结构示意图;
图4为申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于自然语言处理技术领域。通过获取到的文本信息,确定出与所述文本信息相应的文本词向量矩阵、文本长度向量以及扩充属性矩阵,并基于所述文本信息相应的文本词向量矩阵、文本长度向量以及扩充属性矩阵,通过神经网络的编码层以及神经网络的解码层,生成与所述文本信息对应的短文文本。
经研究发现,目前,短文文本内容的创作主要依赖于人员根据资源的特征等,人为的对短文文本的内容进行设计,人工设计并撰写出的短文文本的内容质量良好、可阅读性强,但是人为的根据获取到的资源特征进行短文文本内容的设计与撰写,文本的生成速度慢且效率低。
基于此,本申请实施例提供了一种短文文本的生成方法,考虑了文本信息的文本长度特征,从而能够控制生成的短文文本的长度,进一步增加了短文文本的可阅读性。
请参阅图1,图1为本申请实施例所提供的一种短文文本的生成方法的流程图。如图1中所示,本申请实施例提供的短文文本的生成方法,包括:
S101、基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵。
该步骤中,获取用于生成短文文本的文本信息,并基于获取到的文本信息,确定出与所述文本信息对应的文本词向量矩阵、文本长度向量以及文本特征向量。
其中,所述文本词向量矩阵是将所述文本信息中的各个分词转换为向量的形式之后拼接得到的;所述文本长度向量是将文本信息中能够用于生成短文文本的信息提取出来之后,用于生成短文文本的信息所包含的字符数量转换为向量形式之后得到的;所述扩充属性矩阵是将文本信息中包含的能够用于生成短文文本的特征信息转换为向量的形式之后拼接得到的。
所述特征信息可以包括:名称(人名、地名或者资源名称等)、规格、尺寸、颜色、风格、应用领域以及价格等。
这样,能够对获取到的文本信息进行维度上的扩充,能够在文本词向量矩阵、文本长度矩阵以及扩充属性矩阵三个维度的基础上生成与文本信息对应的短文文本,从而能够更加准确的生成相应的短文文本,并且由于考虑了文本信息的文本长度特征,还能够控制生成的短文文本的长度,进一步增加了短文文本的可阅读性。
请参阅图2,图2为文本词向量矩阵、文本长度向量以及扩充属性矩阵确定方法的流程图。如图2中所示,文本词向量矩阵、文本长度向量以及扩充属性矩阵确定方法,包括:
S1011、对获取到的文本信息进行规范化处理,确定出所述文本信息对应的规范化文本信息以及所述规范化文本信息的字符数量,并基于所述字符数量,确定出所述文本信息对应的文本长度向量。
该步骤中,由于文本信息中可能会存在:(1)繁简不统一、大小写不统一、全角半角不统一、特殊字符等问题;(2)文本信息中还会存在句式内容重复的问题,例如,文本信息中的内容纯粹是由相同的词语堆砌而来“A品牌牙膏A品牌牙膏A品牌”;(3)在一些文本信息中还会存在一些不良信息、语法错误以及错别字等问题,因此需要对文本信息进行规范化处理,将文本信息中的内容进行繁简转换、大小写转换、全角半角转化、去除特殊字符、去掉昵称、电话及网址统一替换等,同时,还会过滤掉文本信息中不必要的重复分词,纠正文本信息的语法错误以及错别字,确定出所述文本信息对应的规范化文本信息。
在确定出的规范化文本信息的基础之上,确定出所述规范化文本信息中的字符数量,并将所述字符数量转化为向量的形式,得到所述文本信息对应的文本长度向量。
S1012、对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵。
该步骤中,由于在后续的短文文本生成过程中,需要将得到的所述规范化文本信息转换成矩阵的形式,因此,需要对所述规范化文本信息进行分词向量映射处理,确定出所述文本信息对应的文本词向量矩阵。
S1013、从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息确定所述文本信息的扩充属性矩阵。
该步骤中,根据所述规范化文本信息中的内容,从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息,确定出所述文本信息对应的扩充属性矩阵。
具体的,从文本信息中确定出能够表示所述文本信息的特征分词,并从数据库中调取特征分词相关联的特征信息,并将获取到的每个特征信息转换为向量的形式,拼接生成所述文本信息对应的扩充属性矩阵。
其中,进行向量拼接时的拼接顺序可以是按照从上至下的顺序拼接每一个特征信息对应的向量,还可以是从左至右的拼接每一个特征信息对应的向量,在此不做具体的限制,可以根据实际情况具体设置。
其中,进行拼接时的拼接顺序可以是按照语句的顺序从上至下的拼接每个字对应的向量,还可以是从左至右的拼接每个字对应的向量,在此不做具体的限制,可以根据实际情况具体设置。
进一步的,步骤S1012包括:对所述规范化文本信息的进行分词处理,确定出所述规范化文本信息中的各个分词;针对于每一个分词,对所述分词进行分词向量处理,确定出每个分词对应的分词向量;基于多个所述分词向量,确定出所述文本信息对应的文本词向量矩阵。
该步骤中,对获取到的规范化文本信息进行分词处理,从规范化文本信息中确定出各个分词,例如,规范化文本信息“我今天去了商店”,对应的分词为“我”、“今天”、“去”、“了”、“商店”;针对于确定出的每一个分词,进行分词向量处理,将每个分词转换为对应的分词向量,例如,“我:[0.132、0.325...0.763]、今天:[0.844、0.567...0.343]、去:[0.673、0.367...0.733]、了:[0.732、0.532...0.763]、商店:[0.847、0.219...0.802]”;然后再将每个分词对应的向量拼接在一起得到“我今天去了商店”对应的文本词向量矩阵(以从上至下的顺序进行拼接为例)。
S102、将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵。
该步骤中,将确定出的所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,通过训练好的神经网络的编码层确定出所述文本信息对应的编码信息矩阵,因此,所述编码信息矩阵中包括了文本信息的分词信息、长度信息以及特征信息。
其中,所述神经网络的编码层中包括:双向-长短时记忆神经网络(Bi-LSTM)以及注意力机制,Bi-LSTM是深度学习中标准的关于时序的网络结构,能够一定程度上记忆过去状态的信息,对应到文本来说,能够通过Bi-LSTM网络确定出文本中每个分词(处理过程中是针对以每个分词对应的向量)之间的关联关系,并以数值的形式添加到原本的文本信息对应的文本词向量矩阵中;注意力机制(Attention)是把注意力集中放在重要的点上,而忽略其他不重要的因素。其中重要程度的判断取决于应用场景,根据应用场景的不同,Attention分为空间注意力和时间注意力,前者用于图像处理,后者用于自然语言处理。
S103、将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵。
该步骤中,在确定出所述文本信息对应的编码信息矩阵以及获取到的起始符对应的词嵌入矩阵将所述编码信息矩阵输入至预先训练好的神经网络的解码层中,确定出在所述时序神经网络中每一个时序神经单元的单元状态矩阵以及隐含状态矩阵。起始符为所述时序神经网络开始工作的原因,即只有当遇到起始符时,时序神经网络才开始解码工作。
其中,所述神经网络的解码层为单向的LSTM网络,单向LSTM网络属于序列型结构,在单向LSTM网络中包括多个LSTM单元,从起始符开始,通过编码信息矩阵初始化单向LSTM网络,并输出每个LSTM单元的单元状态矩阵和隐含状态矩阵给下一个LSTM单元,直至出现结束符不在将单元状态和隐含状态输出给下一个LSTM单元,并输出每个LSTM单元的隐状态矩阵。
S104、基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量。
该步骤中,基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,通过预先训练好的集束搜索算法,按照时序神经网络中每个时序神经单元的先后顺序,确定出所述第一时序神经单元的下一个时序神经单元,以及下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量。
S105、针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵。
该步骤中,针对于时序神经网络中除第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元,输出的单元状态矩阵以及上一个时序神经单元确定出的该时序神经单元对应的每个词向量,确定出该时序神经单元的下一个时序神经单元对应的至少一个词向量,直至该时序神经单元的单元状态矩阵输入的是,获取到的终止符对应的词嵌入矩阵所在的时序神经单元时,时序神经网络停止解码。
其中,由于上一个时序神经单元能够确定出该时序神经单元对应的至少一个词向量,因此,该时序神经单元在解码的过程中分别将每一个词向量作为输入进行解码,在根据每个词向量,确定出下一个时序神经单元对应的至少一个候选词向量,并进一步从中选出下一个时序神经单元对应的至少一个词向量。
示例性的,上一个时序神经单元对应的词向量为A、B,分别将A、B作为该时序神经网络解码时的输入,分别基于A和B进行解码,A解码得到C、D,B解码得到E、F,根据集束搜索的规则,按照集束搜索算法中的集束宽度(假设为2),从C、D、E、F中选择2个得分最高的(假设为C、F)。
S106、基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码。
该步骤中,基于时序神经单元的隐含状态矩阵、编码信息矩阵以及文本长度向量,通过预先训练好的集束搜索算法,确定出时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至时序神经单元的单元状态矩阵输入的是,获取到的终止符对应的词嵌入矩阵所在的时序神经单元时,时序神经网络将不再继续解码。
其中,终止符为所述时序神经网络停止作的原因,即当遇到终止符时,时序神经网络不再进行解码工作。
S107、基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
该步骤中,基于所述起始符对应的词嵌入矩阵、所述终止符对应的词嵌入矩阵以及确定出的时序神经网络中除第一个时序神经单元之外的,其他时序神经单元中的每个时序神经单元对应的词向量,根据所述起始符、所述终止符以及确定出的时序神经网络中除第一个时序神经单元之外的,其他时序神经单元中的每个时序神经单元对应的至少一个目标分词,,生成文本信息对应的多条候选短文文本,并从多条候选短文文本中确定出文本信息对应的短文文本。
本申请中,为了生成的短文文本具有更佳的阅读性,通过集束搜索算法能够确定出文本信息对应的多条候选短文文本,在多个候选短文文本的基础上需要进一步的确定出文本信息对应的短文文本,具体的需要根据计算出的每个分词的生成概率,通过求和将多条候选短文文本中概率和最大的候选文本确定为文本信息对应的短文文本。
对应于上述实施例,此时若不再进行解码,则得到两个候选语句“A、C”,“B、F”,之后从这两个候选语句中选出文本信息对应的短文文本。
其中,短文文本是指根据获取到的文本信息,对文本信息中的内容进一步的进行扩充或者描述,生成更加详细的文本信息,更加详细的文本信息即为短文文本。
进一步的,步骤S102包括:将所述文本词向量矩阵以及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定所述文本词向量矩阵对应的文本序列矩阵,以及所述扩充属性矩阵对应的加权属性矩阵;对所述文本序列矩阵、所述长度向量矩阵以及所述加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
该步骤中,将确定出的文本词向量矩阵及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定出文本词向量矩阵对应的文本序列矩阵,其中所述文本序列矩阵中包括文本词向量矩阵中每行向量的上下文关联关系以及每两行向量之间的关联关系,即分词与分词之间的关联关系,并以数值的形式添加在文本词向量矩阵中;以及所述扩充属性矩阵对应的加权属性矩阵,其中所述加权属性矩阵中包括扩充属性矩阵中每两行向量之间的关联关系,即特征信息与特征信息之间的关联关系;再将确定出的文本序列矩阵以及加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
其中,进行拼接时的拼接顺序可以是按照从上至下的顺序进行拼接,还可以是按照从左至右的顺序进行拼接,在此不做具体的限制,可以根据实际情况具体设置。
进一步的,所述生成方法通过以下步骤确定所述文本词向量矩阵对应的文本序列矩阵:将所述文本词向量矩阵输入至训练好的神经网络的编码层的记忆神经网络中,得到所述文本词向量矩阵对应的上下文信息矩阵;对所述上下文信息矩阵进行注意力机制处理,确定所述文本词向量矩阵对应的文本序列矩阵。
该步骤中,将确定出的文本词向量矩阵输入至训练好的神经网络中的编码层,通过编码层中的记忆神经网络,得到所述文本词向量矩阵对应的上下文信息矩阵,记忆神经网络即为双向-长短时记忆神经网络(Bi-LSTM);在神经网络的编码层中再将得到的上下文信息矩阵进行注意力机制处理,确定出文本词向量矩阵对应的文本序列矩阵,这样文本序列矩阵中包括每行向量的上下文关联关系(即每个分词的上下文信息)以及每行向量之间的关联关系(即分词与分词之间的关联关系)。此处仅以行向量进行举例,在其他实施例中还可以为列向量。
进一步的,所述生成方法通过以下步骤确定所述扩充属性矩阵对应的加权属性矩阵:对所述扩充属性矩阵进行注意力机制处理,确定所述扩充属性矩阵对应的加权属性矩阵。
该步骤中,通过神经网络的编码层确定出扩充属性矩阵对应的加权属性矩阵,在神经网络的编码层中对扩充属性矩阵进行注意力机制处理,从而得到扩充属性矩阵对应的加权属性矩阵,加权属性矩阵能够表达出特征信息与特征信息之间的关联关系。
进一步的,所述基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,包括:基于所述文本信息,获取与所述文本信息对应的分词词表;基于所述编码信息矩阵、所述文本长度向量以及所述时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并将各个分词的生成得分转化为对应的生成概率;按照所述集束搜索算法中预先设置的集束宽度以及各个分词的生成概率,确定出下一个时序神经单元对应的至少一个目标分词,并将每个目标分词转换为词向量。
该步骤中,根据获取到的文本信息,获取与所述文本信息对应的分词词表,基于所述编码信息矩阵、所述文本长度向量以及时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并通过Softmax算法将各个分词的生成得分转化为对应的生成概率;在根据各个分词的生成概率以及预先设置的集束搜索算法的集束宽度,从分词词表中的分词中,将生成概率位于前集束宽度的分词,确定为下一个时序神经单元对应的至少一个目标分词,并将至少一个目标分词通过分词向量处理转换为词向量。
其中,通过以下公式计算各个分词的生成得分:
scoret=(1-αt)score′t+αlen_score;
其中,scoret为分词词表中第t个分词的生成得分,αt为分词词表中第t个分词的注意力权重,score′t为分词词表中第t个分词的中间得分,len_score为长度得分。
score′t=softmax(V′[cext,sl]);
其中,score′t为分词词表中第t个分词的中间得分,V′为神经网络的解码层的参数,cext为编码信息矩阵,sl为第l个输出单元的隐含状态矩阵。
len_score=softmax(V″len_emb);
其中,len_score为长度得分,V″为神经网络的解码层的参数,len_emb为文本长度向量
αt=softmax(V tan(Whhi+WSst+battn));
其中,αt为分词词表中第t个分词的注意力权重,V、Wh、WS、battn为神经网络的解码层的参数,sl为第l个时间序列单元的隐含状态矩阵,hi为编码信息矩阵。
本申请实施例提供的短文文本的生成方法,基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
这样,本申请通过获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及文本特征向量,并通过神经网络的编码层以及神经网络的解码层,确定出文本信息对应的短文文本。从而通过加入文本信息对应的文本长度矩阵以及扩充属性矩阵,能够更加准确的生成文本信息对应的对短文文本,并能够对短文文本的的生成长度进行控制,有助于提高短文文本的生成质量、生成效率以及短文文本的可读性。
请参阅图3,图3为本申请实施例所提供的一种短文文本的生成装置的结构示意图,如图3中所示,所述生成装置300包括:
获取模块310,用于基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;
编码模块320,用于将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;
第一解码模块330,用于将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;
第一确定模块340,用于基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;
第二确定模块350,用于针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;
第二解码模块360,用于基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;
短文生成模块370,用于基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
进一步的,所述获取模块310在用于基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵时,所述获取模块310具体用于:
对获取到的文本信息进行规范化处理,确定出所述文本信息对应的规范化文本信息以及所述规范化文本信息的字符数量,并基于所述字符数量,确定出所述文本信息对应的文本长度向量;
对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵;
从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息确定所述文本信息的扩充属性矩阵。
进一步的,所述获取模块310在用于对所述规范化文本信息进行分词向量映射处理,得到所述规范化文本信息对应的文本词向量矩阵时,所述获取模块310具体用于:
对所述规范化文本信息的进行分词处理,确定出所述规范化文本信息中的各个分词;
针对于每一个分词,对所述分词进行分词向量处理,确定出每个分词对应的分词向量;
基于多个所述分词向量,确定出所述文本信息对应的文本词向量矩阵。
进一步的,所述编码模块320在用于将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵时,所述编码模块320具体用于:
将所述文本词向量矩阵以及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定所述文本词向量矩阵对应的文本序列矩阵,以及所述扩充属性矩阵对应的加权属性矩阵;
对所述文本序列矩阵、所述文本长度向量以及所述加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
进一步的,所述编码模块320通过以下步骤确定所述文本词向量矩阵对应的文本序列矩阵:
将所述文本词向量矩阵输入至训练好的神经网络的编码层的记忆神经网络中,得到所述文本词向量矩阵对应的上下文信息矩阵;
对所述上下文信息矩阵进行注意力机制处理,确定所述文本词向量矩阵对应的文本序列矩阵。
进一步的,所述编码模块320通过以下步骤确定所述扩充属性矩阵对应的加权属性矩阵:
对所述扩充属性矩阵进行注意力机制处理,确定所述扩充属性矩阵对应的加权属性矩阵。
进一步的,第二解码模块360在用于基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量时,所述第二解码模块具体用于:
基于所述文本信息,获取与所述文本信息对应的分词词表;
基于所述编码信息矩阵、所述文本长度向量以及所述时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并将各个分词的生成得分转化为对应的生成概率;
按照所述集束搜索算法中预先设置的集束宽度以及各个分词的生成概率,确定出下一个时序神经单元对应的至少一个目标分词,并将每个目标分词转换为词向量。
本申请实施例提供的短文文本的生成装置,基于获取到的文本信息,基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
这样,本申请通过获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及文本特征向量,并通过神经网络的编码层以及神经网络的解码层,确定出文本信息对应的短文文本。从而通过加入文本信息对应的文本长度矩阵以及扩充属性矩阵,能够更加准确的生成文本信息对应的对短文文本,并能够对短文文本的的生成长度进行控制,有助于提高短文文本的生成质量、生成效率以及短文文本的可读性。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的短文文本的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的短文文本的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种短文文本的生成方法,其特征在于,所述生成方法包括:
基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;其中,所述扩充属性矩阵是将文本信息中包含的用于生成短文文本的特征信息转换为向量的形式之后拼接得到的;所述特征信息至少包括:名称、规格、尺寸、颜色、风格、应用领域以及价格;
将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;
将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;
基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;
针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;
基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;
基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
2.根据权利要求1所述的生成方法,其特征在于,所述基于获取到的文本信息,得到与所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵,包括:
对获取到的文本信息进行规范化处理,确定出所述文本信息对应的规范化文本信息以及所述规范化文本信息的字符数量,并基于所述字符数量,确定出所述文本信息对应的文本长度向量;
对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵;
从数据库中获取与所述规范化文本信息对应的多个特征信息,并基于所述多个特征信息确定所述文本信息的扩充属性矩阵。
3.根据权利要求2所述的生成方法,其特征在于,所述对所述规范化文本信息进行分词向量映射处理,得到所述文本信息对应的文本词向量矩阵,包括:
对所述规范化文本信息的进行分词处理,确定出所述规范化文本信息中的各个分词;
针对于每一个分词,对所述分词进行分词向量处理,确定出每个分词对应的分词向量;
基于多个所述分词向量,确定出所述文本信息对应的文本词向量矩阵。
4.根据权利要求1所述的生成方法,其特征在于,所述将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵,包括:
将所述文本词向量矩阵以及所述扩充属性矩阵分别输入至训练好的神经网络的编码层中,确定所述文本词向量矩阵对应的文本序列矩阵,以及所述扩充属性矩阵对应的加权属性矩阵;
对所述文本序列矩阵、所述文本长度向量以及所述加权属性矩阵进行向量拼接,获得所述文本信息对应的编码信息矩阵。
5.根据权利要求4所述的生成方法,其特征在于,通过以下步骤确定所述文本词向量矩阵对应的文本序列矩阵:
将所述文本词向量矩阵输入至训练好的神经网络的编码层的记忆神经网络中,得到所述文本词向量矩阵对应的上下文信息矩阵;
对所述上下文信息矩阵进行注意力机制处理,确定所述文本词向量矩阵对应的文本序列矩阵。
6.根据权利要求4所述的生成方法,其特征在于,通过以下步骤确定所述扩充属性矩阵对应的加权属性矩阵:
对所述扩充属性矩阵进行注意力机制处理,确定所述扩充属性矩阵对应的加权属性矩阵。
7.根据权利要求1所述的生成方法,其特征在于,所述基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,包括:
基于所述文本信息,获取与所述文本信息对应的分词词表;
基于所述编码信息矩阵、所述文本长度向量以及所述时序神经单元的隐含状态矩阵通过集束搜索算法,确定出所述时序神经单元对应于所述分词词表中各个分词的生成得分,并将各个分词的生成得分转化为对应的生成概率;
按照所述集束搜索算法中预先设置的集束宽度以及各个分词的生成概率,确定出下一个时序神经单元对应的至少一个目标分词,并将每个目标分词转换为词向量。
8.一种短文文本的生成装置,其特征在于,所述生成装置包括:
获取模块,用于基于获取到的文本信息,确定出所述文本信息对应的文本词向量矩阵、文本长度向量以及扩充属性矩阵;其中,所述扩充属性矩阵是将文本信息中包含的用于生成短文文本的特征信息转换为向量的形式之后拼接得到的;所述特征信息至少包括:名称、规格、尺寸、颜色、风格、应用领域以及价格;
编码模块,用于将所述文本词向量矩阵、所述文本长度向量以及所述扩充属性矩阵输入至训练好的神经网络的编码层中,确定出所述文本信息对应的编码信息矩阵;
第一解码模块,用于将所述编码信息矩阵以及获取到的起始符对应的词嵌入矩阵输入至训练好的神经网络的解码层中的时序神经网络中,确定所述时序神经网络中第一个时序神经单元的单元状态矩阵和隐含状态矩阵;
第一确定模块,用于基于所述第一个时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,按照所述时序神经网络中时序神经单元的先后顺序,确定出所述第一个时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量;
第二确定模块,用于针对于所述时序神经网络中除所述第一个时序神经单元之外,其他时间时序单元中的每个时序神经单元,基于所述时序神经单元的上一个时序神经单元的单元状态矩阵以及所述时序神经单元对应的每个词向量,确定所述时序神经单元的单元状态矩阵和隐含状态矩阵;
第二解码模块,用于基于所述时序神经单元的隐含状态矩阵、所述编码信息矩阵以及所述文本长度向量,确定出所述时序神经单元的下一个时序神经单元对应的至少一个目标分词,以及每个目标分词对应的词向量,直至所述时序神经单元的单元状态矩阵输入至获取到的终止符对应的词嵌入矩阵所在的时序神经单元,所述时序神经网络停止解码;
短文生成模块,用于基于所述起始符、所述终止符以及确定出的每个时序神经单元对应的至少一个目标分词,确定出所述文本信息对应的短文文本。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的短文文本的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的短文文本的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911344367.4A CN111126059B (zh) | 2019-12-24 | 2019-12-24 | 一种短文文本的生成方法、生成装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911344367.4A CN111126059B (zh) | 2019-12-24 | 2019-12-24 | 一种短文文本的生成方法、生成装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126059A CN111126059A (zh) | 2020-05-08 |
CN111126059B true CN111126059B (zh) | 2023-08-29 |
Family
ID=70501706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911344367.4A Active CN111126059B (zh) | 2019-12-24 | 2019-12-24 | 一种短文文本的生成方法、生成装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126059B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753137B (zh) * | 2020-06-29 | 2022-05-03 | 四川长虹电器股份有限公司 | 一种基于语音特征的视频搜索方法 |
CN112131835A (zh) * | 2020-09-28 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 文本生成方法、装置、介质和电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952B (zh) * | 2017-05-15 | 2021-06-04 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN109086408B (zh) * | 2018-08-02 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN110019882B (zh) * | 2019-03-18 | 2022-01-28 | 新浪网技术(中国)有限公司 | 一种广告创意分类方法及系统 |
CN110309512A (zh) * | 2019-07-05 | 2019-10-08 | 北京邮电大学 | 一种基于生成对抗网络的中文语法错误更正方法 |
CN110569500A (zh) * | 2019-07-23 | 2019-12-13 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
-
2019
- 2019-12-24 CN CN201911344367.4A patent/CN111126059B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111126059A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480144B (zh) | 具备跨语言学习能力的图像自然语言描述生成方法和装置 | |
CN110795556A (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN114022882B (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
WO2023093525A1 (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN111460883B (zh) | 基于深度强化学习的视频行为自动描述方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111914825B (zh) | 文字识别方法、装置及电子设备 | |
CN111126059B (zh) | 一种短文文本的生成方法、生成装置及可读存储介质 | |
CN113646835A (zh) | 联合自动语音识别和说话人二值化 | |
CN109299470B (zh) | 文本公告中触发词的抽取方法及系统 | |
CN116127953A (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN113344014A (zh) | 文本识别方法和装置 | |
US20230034414A1 (en) | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program | |
CN115512378A (zh) | 一种基于Transformer的中文环境数学公式提取及识别方法 | |
CN111613219B (zh) | 语音数据识别方法、设备及介质 | |
CN111783435B (zh) | 共享词汇的选择方法、装置及存储介质 | |
CN112926344A (zh) | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 | |
CN112307749A (zh) | 文本检错方法、装置、计算机设备和存储介质 | |
CN115860002A (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
JP7365989B2 (ja) | 文字の視覚認識符号化 | |
CN112668343B (zh) | 文本重写方法以及电子设备、存储装置 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231123 Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai Patentee after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: 200000 floors 4, 5 and 6, No. 3 Lane 1473, Zhenguang Road, Putuo District, Shanghai Patentee before: Shanghai Fengzhi Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |