CN112395832B - 一种基于序列到序列的文本量化分析与生成方法及系统 - Google Patents
一种基于序列到序列的文本量化分析与生成方法及系统 Download PDFInfo
- Publication number
- CN112395832B CN112395832B CN202011284523.5A CN202011284523A CN112395832B CN 112395832 B CN112395832 B CN 112395832B CN 202011284523 A CN202011284523 A CN 202011284523A CN 112395832 B CN112395832 B CN 112395832B
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- vector
- output
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000004445 quantitative analysis Methods 0.000 title claims description 8
- 239000013598 vector Substances 0.000 claims abstract description 203
- 238000004458 analytical method Methods 0.000 claims abstract description 66
- 238000013139 quantization Methods 0.000 claims abstract description 62
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 41
- 238000012216 screening Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 230000009191 jumping Effects 0.000 claims description 7
- 238000007373 indentation Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于序列到序列的文本量化分析与生成方法及系统,可根据已知的文本自动生成与所需要进行量化分析的文本所对应的文本。该系统包括:预处理模块、文本内容编码器模块、量化分析编码器模块,解码器模块。本发明使得用户不需要手动将文本信息转化为特征向量,提高了转换的效率;同时,采用基于序列到序列的神经网络算法作为生成文本和对文本进行量化分析的主要方法,在生成文本的过程中可使用GPU进行加速,进一步提高了转换速率;基于序列到序列的神经网络算法也通过多次迭代提高了生成文本和所进行量化分析的文本的质量,避免了单一的模板化的文本生成。
Description
技术领域
本发明属于自然语言处理领域,具体涉及是一种基于序列到序列的文本量化分析与生成系统及其对应的方法。
背景技术
当前以计算机技术和网络技术为核心的现代信息技术迅速发展,尤其是自然语言处理的广泛应用,使得如何训练生成能够对话的系统逐渐成为一个重要的课题。而从有限的文本中如何进行文本的量化分析越来越引起人们的关注。
文本的量化分析任务作为较为传统的自然语言处理任务,其基准模型一般是能记录时间信息同时能随着时间更新参数的循环神经网络(RNN),在循环神经网络中加入遗忘门环节,将可把RNN转变为长短时记忆网络(LSTM),长短时记忆网络能有效处理文字信息中的短句和相关联的词汇,对待不同的词汇将能使用不同时间长度的权重用以描述。
上述用RNN或LSTM抽取文字特征的方法一般被称之为编码器(Encoder),与之对应的,是解码器(Decoder)。编码器和解码器共同构成了最为简单的经典文本生成模型。该模型在处理以序列为形式的文字信息时,往往能获得不错的效果。虽然这种简单的编码器和解码器组合能获得较好的结果,但生成的文本信息与原文本有一定概率无法对应。
发明内容
为了解决上述技术问题:本发明一种基于序列到序列的文本量化分析与生成方法及系统,基于序列到序列的文本量化分析与生成主要依赖双向RNN,即序列到序列的计算,和解码RNN来生成文本。文本量化分析与生成中引入两个编码器模块,其中文本内容编码器用于处理文本信息,量化分析编码器模块用于处理生成的文本信息。通过序列到序列的生成模型,输入文本,输出生成的文本,经过量化分析的文本可与生成的文本对应。
本发明的技术解决方案为:一种基于序列到序列的文本量化分析与生成方法,包括如下步骤:
预处理步骤、对文本信息的筛选和所需进行量化分析的文本的筛选;
文本内容编码步骤、对文本内容进行编码,处理为能被神经网络算法识别的数据结构;
量化分析编码步骤、根据挑选出的词汇对输入的文本特征进行注意力机制的处理,输入到条件编码器,并在之后输入到解码器;
解码步骤、将所得到的向量序列解码为英文单词。
进一步的,所述预处理步骤具体包括如下步骤:
(1.1)选择出大于10个单词的文本,不满足则丢弃;
(1.2)去除标点符号、错误编码、非英语和数字的其他字符;
(1.3)修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题;
(1.4)去除部分异常字符,包括专有名词、人名地名;
(1.5)对筛选出的单词和词组进行词性分析,若单词或词组为名词或名词词组,则保留,否则丢弃。
进一步的,所述文本内容编码步骤具体包括:
(2.1)将预处理所筛选得到的文本信息转为词向量特征;
(2.2)筛选掉部分低频词汇对应的词向量,获得词向量增强特征;
(2.3)将词向量增强特征输入到双向RNN中;
(2.4)双向RNN的输出与已知的词向量计算相关性,相关性保存为词向量的加权权重,传递给量化分析编码步骤;
(2.5)双向RNN的输出同时进行化分析编码步骤。
进一步的,所述量化分析编码步骤具体包括:
(3.1)融合预处理模块所输出的词向量和来自文本内容编码器的输出向量;
(3.2)融合后的结果输入到双向RNN网络;
(3.3)双向RNN网络的输出为向量序列,输入到条件编码器中;
(3.4)计算向量序列与文本内容编码后的向量之间的相关性;
(3.5)判断条件编码器能否让生成的向量序列进行之后的操作;若相关性高于指定的阈值,生成的向量序列将进一步解码;若相关性低于指定的阈值,丢弃。
进一步的,所述解码步骤具体包括:
(4.1)将向量序列和上一步生成的文本输入到解码RNN,输出为随机解码的信息;
(4.2)将输出的概率视作为频率,判断该词汇的频率分布;
(4.2.1)如果分布的数学期望高于阈值,保留;
(4.2.2)如果分布的数学期望不高于阈值,丢弃;
(4.3)判断词汇是否为句号、问号或叹号;
(4.3.1)若所生成的词汇为句号、问号或叹号,则停止生成;
(4.3.2)若所生成的词汇不为句号、问号或叹号,跳转至(4.2);
(4.4)生成的文本通过集束搜索,并输入到(4.1);
(4.5)判断是否完成了全部的文本生成;
(4.5.1)若完成全部的文本生成,结束;
(4.5.2)若未完成全部的文本生成,跳转至(4.1)。
根据本发明的另一方面,还提出一种基于序列到序列的文本量化分析与生成系统,包括:
预处理模块、用于对文本信息的筛选和所需进行量化分析的文本的筛选;
文本内容编码器模块,用于对文本内容进行编码,处理为能被神经网络算法识别的数据结构;
量化分析编码器模块,用于根据挑选出的词汇对输入的文本特征进行注意力机制的处理,输入到条件编码器,并在之后输入到解码器;
解码模块、用于将所得到的向量序列解码为英文单词。
进一步的,预处理模块包括对文本信息的筛选和所需进行量化分析的文本的筛选,对文本信息的筛选处理的是英文文本,首先选择出大于10个单词的文本,然后进行去除标点符号、错误编码、非英语和数字的其他字符,修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题以及去除部分异常字符,对所需进行分析的文本所进行的筛选处理,首先要求是英文文本,其次筛选所生成的文本的对应量化分析文本为单词或词组;筛选出的单词均为名词,筛选出词组为名词词组。
进一步的,文本内容编码器是用于处理输入文本的模块,首先将预处理模块所筛选得到的文本信息转为词向量增强特征,词向量增强特征为具有长度不一的词向量,词向量增强性表现为其中的词向量分布不均匀。在双向递归神经网络RNN中,每一层神经网络被设计有输入和输出,输入为上一部的输出向量,最后一层的输出向量将与已知的词向量计算相关性,将其相关性作为词向量的加权权重。文本内容编码器模块有两个输出方向,一方面,双向RNN的输出将传递给量化分析编码器模块部分,用以筛选符合要求的生成的文本,另一方面,双向RNN的输出将输入到量化分析编码器的词向量输入到双向RNN中,与所量化分析的文本的词向量做融合操作,并作为之后的双向RNN的输入。
进一步的,量化分析编码器模块是处理需要进行分析的文本的模块,预处理模块所筛选的名词和名词词组将作为输入,首先将输入的名词和名词词组视作是文本量化分析与生成文本所对应的量化分析文本,输入到词向量计算方法中,输出为对应的词向量;将输出的词向量和来自文本内容编码器的输出向量做融合操作,融合后的结果输入到双向RNN的网络;通过双向RNN网络的计算,输出为向量序列,向量序列之后输入到条件编码器中,通过计算向量序列与文本内容编码器模块所输出的向量之间的相关性,判断条件编码器能否让生成的向量序列进行之后的操作,若相关性高于指定的阈值,生成的向量序列将进一步的输出到解码器模块,否则丢弃。
进一步的,解码器模式是将所得到的向量序列解码为英文单词的模块,解码器模块的输入为量化分析编码器模块的输出,首先将向量序列输入到解码RNN中,解码RNN的输出为随机解码的信息,不直接输出文本,输出的是文本中每个词汇和对应的概率分布,其中高概率的词汇被确定直接生成,而之后的词汇将依赖之前生成的词汇进行进一步的生成,全部生成的词汇将构成输出的文本,之后,输出的文本将使用集束搜索,选出所关注话题的文本,并和编码器的输入一同输入到解码RNN中。
预处理模块:预处理模块包括对文本信息的筛选和生成信息的筛选。对文本信息的筛选处理的是英文文本,首先选择出大于10个单词的文本,然后进行去除标点符号、错误编码、非英语和数字的其他字符,修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题以及去除部分异常字符(如专有名词、人名地名等)等步骤。对量化分析的文本的筛选处理首先要求是英文文本,其次筛选所分析的文本为文本中的单词或词组。筛选出的单词均为名词,筛选出词组为名词词组。
文本内容编码器模块:文本内容编码器是用于处理输入文本的模块。首先将预处理模块所筛选得到的文本信息转为词向量增强特征,词向量增强特征为具有长度不一的词向量,词向量增强性表现为其中的词向量分布不均匀。在双向RNN(递归神经网络)中,每一层神经网络被设计有输入和输出,输入为上一部的输出向量,最后一层的输出向量将与已知的词向量计算相关性,将其相关性作为词向量的加权权重。文本内容编码器模块有两个输出方向,一方面,双向RNN的输出将传递给量化分析编码器模块部分,用以筛选符合要求的生成的文本,另一方面,双向RNN的输出将输入到量化分析编码器的词向量输入到双向RNN中,与所分析的文本的词向量做融合操作,并作为之后的双向RNN的输入。
量化分析编码器模块:量化分析编码器模块是处理需要进行量化分析的文本的模块。预处理模块所筛选的名词和名词词组将作为输入。首先将输入的名词和名词词组视作是文本量化分析与生成中生成信息对应的量化文本,输入到词向量计算方法中,输出为对应的词向量。进一步的,将输出的词向量和来自文本内容编码器的输出向量做融合操作,融合后的结果输入到双向RNN的网络。通过双向RNN网络的计算。输出为向量序列。向量序列之后输入到条件编码器中,通过计算向量序列与文本内容编码器模块所输出的向量之间的相关性,判断条件编码器能否让生成的向量序列进行之后的操作。若相关性高于指定的阈值,生成的向量序列将进一步的输出到解码器模块,否则丢弃。
解码器模块:解码器模式是将所得到的向量序列解码为英文单词的模块。解码器模块的输入为量化分析编码器模块的输出,首先将向量序列输入到解码RNN中,解码RNN的输出为随机解码的信息,不直接输出生成的文本,输出的是文本中每个词汇和对应的概率分布,其中高概率的词汇被确定直接生成,而之后的词汇将依赖之前生成的词汇进行进一步的生成,全部生成的词汇将构成输出的文本。之后,输出的文本将使用集束搜索,选出所关注话题的文本,并和编码器的输入一同输入到解码RNN中。
有益效果:
本发明提出的一种由文本自动生成文本的方法及系统,用户不需要手动将文本信息转化为特征向量,提高了转换的效率;同时,采用基于序列到序列的神经网络算法作为生成文本和对文本进行量化分析的主要方法,在生成文本的过程中可使用GPU进行加速,进一步提高了转换速率;基于序列到序列的神经网络算法也通过多次迭代提高了生成文本和所进行量化分析的文本的质量,避免了单一的模板化的文本生成。
附图说明
图1为本发明框架图;
图2为本发明的预处理模块流程图;
图3为本发明的文本内容编码器模块流程图;
图4为本发明的量化分析编码器模块流程图;
图5为本发明的解码器模块流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了更好地理解本发明,先对一些基本概念进行一下解释说明。
词向量
词向量,又叫词汇嵌入式,是自然语言处理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。在本方法中,词向量是从每个单词一维的空间到600维空间的映射,每个单词被转为一个1x600大小的向量,其中向量的每个位置上的值为浮点数。词向量的计算依赖Glove数据集,通过该数据集,可计算词汇之间的关系,并以向量表示词汇。
双向RNN
一种能对文本信息从前往后和从后往前同时进行的递归神经网络,该神经网络不仅从前往后保留每个词汇前面词汇的重要信息,而且从后往前保留该词汇后面的词汇的信息,然后基于这些词汇的信息预测所需要的词向量。
双向RNN分为从前向后和从后向前两个部分:
从前往后:
从后往前:
输出:
其中U1代表每次输入的词向量的权重,Xi代表第i个位置的文本所对应的词向量,W1代表隐藏层参数hi-1的权重,hi-1代表隐藏层第i-1个位置上的词向量,隐藏层的词向量通常不直接输出而是作为中间变量参与计算。表示从前往后遍历所获得的隐藏层向量和从后往前遍历的向量的拼接,V代表归一化向量,控制输出值的范围,yi代表输出值,U2代表每次输出的词向量的权重,W2代表隐藏层参数hi的权重。
词向量增强特征
为了能够获得具有代表性的词向量,在计算词向量时,往往不会选取文本信息中出现的全部词汇制作词向量。显著的文本特征由文本中的高频词汇所代表,因此仅选取文本中的高频词汇进行词向量处理。该步骤所获得的词向量的特征,不能完整代表文本信息的特征,被称为词向量增强特征。
条件编码器
条件编码器为根据一个参考向量与已知的词汇的词向量之间的相关性来判断词向量是否满足条件的编码器。其中判断的依据为参考向量与词向量之间的余弦距离,当余弦距离高于某个设定的阈值时,判断该词向量为所需要的词向量,即满足要求,否则将该词向量判断为不需要的词向量,不满足要求。
单向RNN
单向RNN是一种能对文本信息从前往后预测并生成词汇的递归神经网络,该网络仅保留从前往后的每个词汇的信息,并基于这些词汇的信息预测下一个词汇的词向量。
从前往后:
hi=f(U*Xi+W*hi-1)
输出:
yi=softmax(V*hi)
其中,Xi代表第i个位置的文本所对应的词向量,hi-1代表隐藏层第i-1个位置上的词向量,U代表每次输入的词向量的权重,W代表隐藏层参数hi-1的权重,V代表归一化向量,控制输出值的范围,yi代表输出值。
集束搜索
集束搜索算法是以较少的代价在相对受限的搜索空间中找出其最优解,得出的解接近于整个搜索空间中的最优解。算法一般分为两部分:
路径搜索:是指在受限空间中检索出所有路径;
路径打分:是指对某一条路径进行评估打分;
集束搜索的一般步骤为:
步骤1初始化A个序列,序列均为空,这些序列称之为集束路径;
步骤2取下一个单元的前N个候选值(N一般为A或者更大,单元的内部侯选值已按照概率倒序排列),与已存在的集束路径组合形成N*A条路径,称之为前置路径;
步骤3对前置路径进行打分,取前A个前置路径作为新的集束路径;
若解码结束在完成算法,否则回到步骤2。
其中A被称作是集束搜索中的集束的大小。
根据本发明的一个实施例,提出一种基于序列到序列的文本量化分析与生成系统,如图1所示包括:预处理模块,文本内容编码器模块,量化分析编码器模块,解码器模块,具体如下:
(1)预处理模块:首先选择出大于10个单词的文本,然后进行去除标点符号、错误编码、非英语和数字的其他字符,修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题,去除部分异常字符(如专有名词、人名地名等),对筛选出的单词和词组进行词性分析,若单词或词组为名词或名词词组,则保留,否则,则丢弃。对于最终获得的名词和名词词组,视作是生成文本对应的量化分析文本。
(2)文本内容编码器模块:首先将预处理模块所筛选得到的文本信息转为词向量增强特征,将词向量增强特征输入到双向RNN中,最后一层神经网络的输出向量将与已知的词向量计算相关性,将其相关性作为词向量的加权权重。该步骤有两个输出,一方面,双向RNN的输出将传递给量化分析编码器模块部分,用以筛选符合要求的生成的文本,另一方面,双向RNN的输出将输入到量化分析编码器的词向量并融合后输入到双向RNN中。
(3)量化分析编码器模块:首先输入预处理模块所筛选的名词和名词词组到词向量中,输出为对应的词向量,将输出的词向量和来自文本内容编码器的输出向量做融合操作,融合后的结果输入到双向RNN的网络。双向RNN网络的输出为向量序列。向量序列之后输入到条件编码器中,通过计算向量序列与文本内容编码器模块所输出的向量之间的相关性,判断条件编码器能否让生成的向量序列进行之后的操作。若相关性高于指定的阈值,生成的向量序列将进一步的输出到解码器模块,否则丢弃。
(4)解码器模块:解码器模块的输入为量化分析编码器模块的输出和上一步生成的文本,首先将向量序列输入到解码RNN中,解码RNN的输出为随机解码的信息,即生成文本中每个词汇和对应的概率分布。将概率视作为频率,判断每个词汇的频率分布,如果分布的数学期望高于阈值则将该词汇确定为生成的词汇,否则该词汇将被丢弃。在生成词汇后,需要判断词汇是否为问号、句号或叹号,若所生成的词汇为问号、句号或叹号,则停止生成,若生成的词汇不是问号、句号或叹号,则代表文本并未完全生成,则继续生成下一个词汇。在生成完全的文本后,文本将被输入到解码器模块的输入步骤中。同时判断是否完成了全部的文本生成,若完成了全部的文本生成,则跳出循环,结束操作,否则将生成的文本输入到下一步的解码器模块中。
根据本发明的一个实施例,如图2所示,预处理模块包括对文本信息的筛选和所需进行量化分析的文本的筛选,对文本信息的筛选处理的是英文文本,首先选择出大于10个单词的文本,然后进行去除标点符号、错误编码、非英语和数字的其他字符,修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题以及去除部分异常字符,对所需进行分析的文本所进行的筛选处理,首先要求是英文文本,其次筛选所生成的文本的对应量化分析文本为单词或词组;筛选出的单词均为名词,筛选出词组为名词词组。
根据本发明的一个实施例,如图3,文本内容编码器是用于处理输入文本的模块,首先将预处理模块所筛选得到的文本信息转为词向量增强特征,词向量增强特征为具有长度不一的词向量,词向量增强性表现为其中的词向量分布不均匀。在双向递归神经网络RNN中,每一层神经网络被设计有输入和输出,输入为上一部的输出向量,最后一层的输出向量将与已知的词向量计算相关性,将其相关性作为词向量的加权权重。文本内容编码器模块有两个输出方向,一方面,双向RNN的输出将传递给量化分析编码器模块部分,用以筛选符合要求的生成的文本,另一方面,双向RNN的输出将输入到量化分析编码器的词向量输入到双向RNN中,与所量化分析的文本的词向量做融合操作,并作为之后的双向RNN的输入。
根据本发明的一个实施例,如图4,量化分析编码器模块是处理需要进行分析的文本的模块,预处理模块所筛选的名词和名词词组将作为输入,首先将输入的名词和名词词组视作是文本量化分析与生成文本所对应的量化分析文本,输入到词向量计算方法中,输出为对应的词向量;将输出的词向量和来自文本内容编码器的输出向量做融合操作,融合后的结果输入到双向RNN的网络;通过双向RNN网络的计算,输出为向量序列,向量序列之后输入到条件编码器中,通过计算向量序列与文本内容编码器模块所输出的向量之间的相关性,判断条件编码器能否让生成的向量序列进行之后的操作,若相关性高于指定的阈值,生成的向量序列将进一步的输出到解码器模块,否则丢弃。
根据本发明的一个实施例,如图5,解码器模式是将所得到的向量序列解码为英文单词的模块,解码器模块的输入为量化分析编码器模块的输出,首先将向量序列输入到解码RNN中,解码RNN的输出为随机解码的信息,不直接输出文本,输出的是文本中每个词汇和对应的概率分布,其中高概率的词汇被确定直接生成,而之后的词汇将依赖之前生成的词汇进行进一步的生成,全部生成的词汇将构成输出的文本,之后,输出的文本将使用集束搜索,选出所关注话题的文本,并和编码器的输入一同输入到解码RNN中。
根据本发明的另一方面,提出一种基于序列到序列的文本量化分析与生成方法,包括如下步骤:
预处理步骤、对文本信息的筛选和所需进行量化分析的文本的筛选;
文本内容编码步骤、对文本内容进行编码,处理为能被神经网络算法识别的数据结构;
量化分析编码步骤、根据挑选出的词汇对输入的文本特征进行注意力机制的处理,输入到条件编码器,并在之后输入到解码器;
解码步骤、将所得到的向量序列解码为英文单词。
进一步的,如图2所示,所述预处理步骤具体包括如下步骤:
(1.1)选择出大于10个单词的文本,不满足则丢弃;
(1.2)去除标点符号、错误编码、非英语和数字的其他字符;
(1.3)修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题;
(1.4)去除部分异常字符,包括专有名词、人名地名;
(1.5)对筛选出的单词和词组进行词性分析,若单词或词组为名词或名词词组,则保留,否则丢弃。
进一步的,如图3所示,所述文本内容编码步骤具体包括:
(2.1)将预处理所筛选得到的文本信息转为词向量特征;
(2.2)筛选掉部分低频词汇对应的词向量,获得词向量增强特征;
(2.3)将词向量增强特征输入到双向RNN中;
(2.4)双向RNN的输出与已知的词向量计算相关性,相关性保存为词向量的加权权重,传递给量化分析编码步骤;
(2.5)双向RNN的输出同时进行化分析编码步骤。
进一步的,如图4所示,所述量化分析编码步骤具体包括:
(3.1)融合预处理模块所输出的词向量和来自文本内容编码器的输出向量;
(3.2)融合后的结果输入到双向RNN网络;
(3.3)双向RNN网络的输出为向量序列,输入到条件编码器中;
(3.4)计算向量序列与文本内容编码后的向量之间的相关性;
(3.5)判断条件编码器能否让生成的向量序列进行之后的操作;若相关性高于指定的阈值,生成的向量序列将进一步解码;若相关性低于指定的阈值,丢弃。
进一步的,如图5所示,所述解码步骤具体包括:
(4.1)将向量序列和上一步生成的文本输入到解码RNN,输出为随机解码的信息;
(4.2)将输出的概率视作为频率,判断该词汇的频率分布;
(4.2.1)如果分布的数学期望高于阈值,保留;
(4.2.2)如果分布的数学期望不高于阈值,丢弃;
(4.3)判断词汇是否为句号、问号或叹号;
(4.3.1)若所生成的词汇为句号、问号或叹号,则停止生成;
(4.3.2)若所生成的词汇不为句号、问号或叹号,跳转至(4.2);
(4.4)生成的文本通过集束搜索,并输入到(4.1);
(4.5)判断是否完成了全部的文本生成;
(4.5.1)若完成全部的文本生成,结束;
(4.5.2)若未完成全部的文本生成,跳转至(4.1)。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.一种基于序列到序列的文本量化分析与生成方法,其特征在于,包括如下步骤:
预处理步骤、对文本信息的筛选和所需进行量化分析的文本的筛选;
文本内容编码步骤、对文本内容进行编码,处理为能被神经网络算法识别的数据结构;
量化分析编码步骤、根据挑选出的词汇对输入的文本特征进行注意力机制的处理,输入到条件编码器,并在之后输入到解码器;
解码步骤、将所得到的向量序列解码为英文单词;
所述文本内容编码步骤具体包括:
(2.1)将预处理所筛选得到的文本信息转为词向量特征;
(2.2)筛选掉部分低频词汇对应的词向量,获得词向量增强特征;
(2.3)将词向量增强特征输入到双向RNN中;
(2.4)双向RNN的输出与已知的词向量计算相关性,相关性保存为词向量的加权权重,传递给量化分析编码步骤;
(2.5)双向RNN的输出同时进行量化分析编码步骤;
所述量化分析编码步骤具体包括:
(3.1)融合预处理步骤所输出的词向量和来自文本内容编码器的输出向量;
(3.2)融合后的结果输入到双向RNN网络;
(3.3)双向RNN网络的输出为向量序列,输入到条件编码器中;
(3.4)计算向量序列与文本内容编码后的向量之间的相关性;
(3.5)判断条件编码器能否让生成的向量序列进行之后的操作;若相关性高于指定的阈值,生成的向量序列将进一步解码;若相关性低于指定的阈值,丢弃;
所述解码步骤具体包括:
(4.1)将向量序列和上一步生成的文本输入到解码RNN,输出为随机解码的信息;
(4.2)将输出的概率视作为频率,判断该词汇的频率分布;
(4.2.1)如果分布的数学期望高于阈值,保留;
(4.2.2)如果分布的数学期望不高于阈值,丢弃;
(4.3) 判断词汇是否为句号、问号或叹号;
(4.3.1) 若所生成的词汇为句号、问号或叹号,则停止生成;
(4.3.2) 若所生成的词汇不为句号、问号或叹号,跳转至(4.2);
(4.4)生成的文本通过集束搜索,并输入到(4.1)
(4.5) 判断是否完成了全部的文本生成;
(4.5.1) 若完成全部的文本生成,结束;
(4.5.2) 若未完成全部的文本生成,跳转至(4.1)。
2.根据权利要求1所述的一种基于序列到序列的文本量化分析与生成方法,其特征在于,所述预处理步骤具体包括如下步骤:
(1.1)选择出大于10个单词的文本,不满足则丢弃;
(1.2)去除标点符号、错误编码、非英语和数字的其他字符;
(1.3)修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题;
(1.4)去除部分异常字符,包括专有名词、人名地名;
(1.5)对筛选出的单词和词组进行词性分析,若单词或词组为名词或名词词组,则保留,否则丢弃。
3.一种基于序列到序列的文本量化分析与生成系统,其特征在于,包括:
预处理模块,用于对文本信息的筛选和所需进行量化分析的文本的筛选;
文本内容编码器模块,用于对文本内容进行编码,处理为能被神经网络算法识别的数据结构;文本内容编码器是用于处理输入文本的模块,首先将预处理模块所筛选得到的文本信息转为词向量增强特征,词向量增强特征为具有长度不一的词向量,词向量增强性表现为其中的词向量分布不均匀,在双向递归神经网络RNN中,每一层神经网络被设计有输入和输出,输入为上一部的输出向量,最后一层的输出向量将与已知的词向量计算相关性,将其相关性作为词向量的加权权重;文本内容编码器模块有两个输出方向,一方面,双向RNN的输出将传递给量化分析编码器模块部分,用以筛选符合要求的生成的文本,另一方面,双向RNN的输出将输入到量化分析编码器的词向量输入到双向RNN中,与所量化分析的文本的词向量做融合操作,并作为之后的双向RNN的输入;
量化分析编码器模块,用于根据挑选出的词汇对输入的文本特征进行注意力机制的处理,输入到条件编码器,并在之后输入到解码器;量化分析编码器模块是处理需要进行分析的文本的模块,预处理模块所筛选的名词和名词词组将作为输入,首先将输入的名词和名词词组视作是文本量化分析与生成文本所对应的量化分析文本,输入到词向量计算方法中,输出为对应的词向量;将输出的词向量和来自文本内容编码器的输出向量做融合操作,融合后的结果输入到双向RNN的网络;通过双向RNN网络的计算,输出为向量序列,向量序列之后输入到条件编码器中,通过计算向量序列与文本内容编码器模块所输出的向量之间的相关性,判断条件编码器能否让生成的向量序列进行之后的操作,若相关性高于指定的阈值,生成的向量序列将进一步的输出到解码器模块,否则丢弃;
解码模块,用于将所得到的向量序列解码为英文单词。
4.根据权利要求3所述的一种基于序列到序列的文本量化分析与生成系统,其特征在于,预处理模块:
预处理模块包括对文本信息的筛选和所需进行量化分析的文本的筛选,对文本信息的筛选处理的是英文文本,首先选择出大于10个单词的文本,然后进行去除标点符号、错误编码、非英语和数字的其他字符,修正拼写错误的单词,修正口语化词汇,修正空格和缩进所带来的格式问题以及去除部分异常字符,对所需进行分析的文本所进行的筛选处理,首先要求是英文文本,其次筛选所生成的文本的对应量化分析文本为单词或词组;筛选出的单词均为名词,筛选出词组为名词词组。
5.根据权利要求3所述的一种基于序列到序列的文本量化分析与生成系统,其特征在于,解码器模块:
解码器模式是将所得到的向量序列解码为英文单词的模块,解码器模块的输入为量化分析编码器模块的输出,首先将向量序列输入到解码RNN中,解码RNN的输出为随机解码的信息,不直接输出文本,输出的是文本中每个词汇和对应的概率分布,其中高概率的词汇被确定直接生成,而之后的词汇将依赖之前生成的词汇进行进一步的生成,全部生成的词汇将构成输出的文本,之后,输出的文本将使用集束搜索,选出所关注话题的文本,并和编码器的输入一同输入到解码RNN中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284523.5A CN112395832B (zh) | 2020-11-17 | 2020-11-17 | 一种基于序列到序列的文本量化分析与生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284523.5A CN112395832B (zh) | 2020-11-17 | 2020-11-17 | 一种基于序列到序列的文本量化分析与生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395832A CN112395832A (zh) | 2021-02-23 |
CN112395832B true CN112395832B (zh) | 2024-05-21 |
Family
ID=74600514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284523.5A Active CN112395832B (zh) | 2020-11-17 | 2020-11-17 | 一种基于序列到序列的文本量化分析与生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395832B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN110008482A (zh) * | 2019-04-17 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110188348A (zh) * | 2019-05-07 | 2019-08-30 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110188176A (zh) * | 2019-04-30 | 2019-08-30 | 深圳大学 | 深度学习神经网络及训练、预测方法、系统、设备、介质 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN111382584A (zh) * | 2018-09-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN111666756A (zh) * | 2020-05-26 | 2020-09-15 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909157B2 (en) * | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US10997374B2 (en) * | 2019-03-22 | 2021-05-04 | Fortia Financial Solutions | Generation of natural language text from structured data using a fusion model |
-
2020
- 2020-11-17 CN CN202011284523.5A patent/CN112395832B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN111382584A (zh) * | 2018-09-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN110008482A (zh) * | 2019-04-17 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110188176A (zh) * | 2019-04-30 | 2019-08-30 | 深圳大学 | 深度学习神经网络及训练、预测方法、系统、设备、介质 |
CN110188348A (zh) * | 2019-05-07 | 2019-08-30 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN111666756A (zh) * | 2020-05-26 | 2020-09-15 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
Non-Patent Citations (4)
Title |
---|
Seq2seq Deep Learning Method for Summary Generation by LSTM with Two-way Encoder and Beam Search Decoder;Gábor Szűcs;《2019 IEEE 17th International Symposium on Intelligent Systems and Informatics(SISY)》;000221-000226 * |
Text Summarization Method Based on Double Attention Pointer Network;Zhixin Li等;《 IEEE Access》;第8卷;11279 - 11288 * |
基于双编码器结构的文本自动摘要研究;冯读娟等;《计算机工程》;第46卷(第6期);60-64 * |
基于深度学习的文本生成技术研究;许海明;《中国优秀硕士学位论文全文数据库 信息科技辑》(第7期);I138-1397 * |
Also Published As
Publication number | Publication date |
---|---|
CN112395832A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN108845994B (zh) | 利用外部信息的神经机器翻译系统及翻译系统的训练方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111191468B (zh) | 术语替换方法及装置 | |
CN111626041B (zh) | 一种基于深度学习的音乐评论生成方法 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN110569505A (zh) | 一种文本输入方法及装置 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN110717345A (zh) | 一种译文重对齐的循环神经网络跨语言机器翻译方法 | |
CN108763230B (zh) | 利用外部信息的神经机器翻译方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114239536A (zh) | 一种事件抽取方法、系统及计算机可读存储介质 | |
CN118228733A (zh) | 一种基于图神经网络的微博评论对话情感分析方法及系统 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN112395832B (zh) | 一种基于序列到序列的文本量化分析与生成方法及系统 | |
CN116842150A (zh) | 基于对比学习的变分自编码器回复生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |