CN110502748A - 文本主题抽取方法、装置及计算机可读存储介质 - Google Patents
文本主题抽取方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110502748A CN110502748A CN201910659924.5A CN201910659924A CN110502748A CN 110502748 A CN110502748 A CN 110502748A CN 201910659924 A CN201910659924 A CN 201910659924A CN 110502748 A CN110502748 A CN 110502748A
- Authority
- CN
- China
- Prior art keywords
- text
- vector set
- word
- words
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 213
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 239000012634 fragment Substances 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000013016 damping Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 235000001968 nicotinic acid Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种文本主题抽取方法,包括:接收文本数据集,对所述文本数据集进行预处理操作;对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。本发明还提出一种文本主题抽取装置以及一种计算机可读存储介质。本发明实现了文本主题的高效提取。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于基于变焦神经网络的文本主题抽取方法、装置及计算机可读存储介质。
背景技术
结构信息在自然语言理解中非常重要。目前的一些基于神经网络的模型获取局部句法信息的能力有限,不能很好地利用文档的高层和大规模结构,通常,文本中的这一信息包含了作者表达信息的策略,在构建有效的表达方式和形成适当的输出模式方面,对文本理解是有价值的。目前对于文本主题的提取主要利用LDA主题提取算法,LDA主题提取算法利用文档的隐含语义信息来提取关键词,但是主题模型提取的关键词比较宽泛,不能很好的反应文档主题。另外,对于LDA模型的时间复杂度较高,需要大量的实践训练。
发明内容
本发明提供一种文本主题抽取方法、装置及计算机可读存储介质,其主要目的在于当用户在进行文本提取时,给用户呈现高效的文本提取结果。
为实现上述目的,本发明提供的一种文本主题抽取方法,包括:
文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
可选地,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中,所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
可选地所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
可选地,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
可选地,所述通过预先构建变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的隐藏状态序列,从而得到所述文本数据集的主题,包括:
通过隐马尔科夫对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集;
利用所述变焦神经网络的长短期记忆网络对稀疏操作后的所述文本向量集进行解码,通过所述长短期记忆网络的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率高低进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。
此外,为实现上述目的,本发明还提供一种文本主题抽取装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本主题抽取程序,所述文本主题抽取程序被所述处理器执行时实现如下步骤:
文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
可选地,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中,所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
可选地所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
可选地,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或者多个处理器执行,以实现如上所述的文本主题抽取方法的步骤。
本发明提出的文本主题抽取方法、装置及计算机可读存储介质,在用户进行文本主题提取时,结合对接收的文本数据集的处理以及利用预先构建的变焦神经网络模型对处理后的所述文本数据集进行解码,获得所述文本数据集提取的文本主题,可以给用户呈现出高效的文本主题提取结果。
附图说明
图1为本发明一实施例提供的文本主题抽取方法的流程示意图;
图2为本发明一实施例提供的文本主题抽取装置的内部结构示意图;
图3为本发明一实施例提供的文本主题抽取装置中文本主题抽取程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本主题抽取方法。参照图1所示,为本发明一实施例提供的文本主题抽取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文本主题抽取方法包括:
S1、接收文本数据集,对所述文本数据集进行预处理操作,得到文本向量数据集。
本发明较佳实施例中,所述文本数据集通过以下两种方式得到:方式一:通过搜索引擎按照预设的关键字词进行搜索获取得到;方式二:通过访问各大语料库官网进行得到。例如,所述语料库官网可以为北京大学中国语言学研究中心。进一步地,本发明较佳实施例所述预处理操作包括去重、分词、去停用词、以及特征词权重计算,本发明通过所述预处理操作将所述文本数据集转换为向量空间模型:di=(w1,w2,...,wn),其中,di表示所述文本数据集中第i个数据,wj为数据i中第j个特征项的权重。
详细的,所述预处理操作具体实施步骤如下所示:
a、去重:获取得到的所述文本数据集中存在重复的文本数据时,会降低文本分类的精度,因此,本发明较佳实施例首先对所述文本数据集执行去重操作。
优选地,本发明通过欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文本数据。当两个文本数据之间的距离小于预设距离阈值,则删除其中一个文本数据。
b、分词:本发明通过预设的策略将所述文本数据集的数据与词典中的词条进行匹配,得到所述文本数据集的特征词,并将所述特征词用空格符号隔开。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
c、去停用词:所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。本发明通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据集中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
d、特征词权重计算:本发明通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。详细地,计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wj的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
S2、对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
本发明较佳实施例通过文本层次化编码器对预处理操作后的所述文本数据集进行编码。
所述文本层次化编码器包含字嵌入层、第一层bi-LSTM以及第二层bi-LSTM,其中,所述字嵌入层用于生成所述文本词向量集,所述第一层bi-LSTM用于接收所述词向量集作为输入并生成所述文本句子向量集,第二个bi-LSTM层接收所述文本句子向量集作为输入并文本段落向量集。进一步地,本发明通过所述生成的词向量集、句子向量集以及段落向量集建立文本向量集。
本发明优选实施例通过word2vec对所述文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集。所述word2vec是一群用来产生词向量的相关模型。详细地,所述文本层次化编码器操作步骤为:利用独热码(one-hot)形式将所述文本数据集进行量化,得到词汇表向量,将所述词汇表向量输入至所述word2vec中,利用所述word2vec模型的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述文本词向量集。
进一步地,所述bi-LSTM为双向的LSTM(Long Short-Term Memory,长短期记忆网络),即前向LSTM和后向LSTM,用于捕捉文本句子上下文的信息。详细地,将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集。其中,所述最大池化操作计算公式如下所示:
其中,表示输入的单词向量,表示通过最大池化操作获得的一个固定长度的句子向量,其长度和j有关,Rs表示层次记忆的句子分量。
同理,本发明较佳实施例利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
S3、对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本标签序列,从而得到所述文本数据集的主题。
本发明较佳实施例中,所述稀疏操作通过自然语言文本的上文内容的“写作习惯”特征和已经预测出的标签序列,对所述自然语言文本中的下文标签规则进行推理出建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:“1.……2.……3.……”。所述有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签或者相同结构标签。在解码过程中,本发明综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到所述变焦神经网络内,使其可以更加高效地处理数据。
进一步地,所述变焦神经网络是一个序列决策模型,即一个循环神经网络模型。本发明通过搭建LSTM的变焦神经网络对稀疏操作后的所述文本向量集进行解码。所述LSTM通过控制输入门和输出门达到保护和控制记忆单元的效果。所述输入门和输出门用于允许LSTM的记忆单元长时间存储和访问序列信息,减少梯度消失问题。当所述输入门保持关闭(即激活值接近0),则新的输入不会进入所述变焦神将网络,所述变焦神经网络中的记忆单元会一直保持开始的激活状态,于是,可以控制所述变焦神经网络模型什么时候接受新的数据,什么时候拒绝新的数据进入。
详细地,本发明通过隐马尔科夫(HMM)对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集,其中,所述标签集用于判断下述LSTM输出的文本隐藏状态序列的标准。所述HMM是一种关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个因观测而产生的随机序列的过程。例如,将输入的文本向量序列作为观测序列Ak=(a1,a2,...an),根据所述隐马尔科夫R=(X,Z,β),所述R=(X,Z,β)是一个三元组用于来简洁的表示一个隐马尔可夫模型,当给定观测序列条件概率P(Y|A)时,建立所述输入的文本向量的隐藏状态序列标签为:Yk=(y1,y2,...yk)。
进一步,本发明较佳实施例利用所述变焦神经网络的LSTM对稀疏操作后的所述文本向量集进行解码,通过所述LSTM的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。所述softmax激活函数是对逻辑回归的推广,用于处理多分类问题。所述softmax激活函数核心公式为:式中xj表示生成的标签为j,其中k表示共有k种标签。
进一步地,本发明较佳实施例还可以包括通过在所述LSTM中构建损失函数进行不断提高所述LSTM的性能。所述损失函数用来评价网络模型输出的预测值与真实值Y之间的差异。其中,当损失函数值越小,网络模型的性能越好。优选地,本发明通过来表示损失函数,根据深度学习中神经元基本公式,所述LSTM各层输入、输出为:
其中,为第1层网络第i个神经元的输入,Wsi-1为第1层网络第i个神经元到第l+1层网络中第j个神经元的链接,Cj为输出层各单元的输出值,本发明根据所述输入输出公式,并利用MSE(Mean Square Error,均方误差)建立损失函数其中,本发明通过ReLU函数relu(x)=max(0,x)缓解LSTM梯度消散问题,所述ReLU函数满足仿生学中的稀疏性,只有当输入值高于一定数目时才激活该神经元节点,当输入值低于0时进行限制,当输入上升到某一阙值以上时,函数中自变量与因变量呈线性关系。
进一步地,本发明通过梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法。详细地,为找到所述损失函数的最小值,需要沿着与梯度向量相反的方向-dL/dy更新变量L,这样可以使得梯度减少最快,直至损失收敛至最小值,其中,参数更新公式为:L=L-α dL/dy,α表示学习率。
发明还提供一种文本主题抽取装置。参照图2所示,为本发明一实施例提供的文本主题抽取装置的内部结构示意图。
在本实施例中,所述文本主题抽取装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文本主题抽取装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本主题抽取装置1的内部存储单元,例如该文本主题抽取装置1的硬盘。存储器11在另一些实施例中也可以是文本主题抽取装置1的外部存储设备,例如文本主题抽取装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括文本主题抽取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本主题抽取装置1的应用软件及各类数据,例如文本主题抽取程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本主题抽取程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本主题抽取装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及文本主题抽取程序01的文本主题抽取装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文本主题抽取装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有文本主题抽取程序01;处理器12执行存储器11中存储的文本主题抽取程序01时实现如下步骤:
步骤一、接收文本数据集,对所述文本数据集进行预处理操作,得到文本向量数据集。
本发明较佳实施例中,所述文本数据集通过以下两种方式得到:方式一:通过搜索引擎按照预设的关键字词进行搜索获取得到;方式二:通过访问各大语料库官网进行得到。例如,所述语料库官网可以为北京大学中国语言学研究中心。进一步地,本发明较佳实施例所述预处理操作包括去重、分词、去停用词、以及特征词权重计算,本发明通过所述预处理操作将所述文本数据集转换为向量空间模型:di=(w1,w2,...,wn),其中,di表示所述文本数据集中第i个数据,wj为数据i中第j个特征项的权重。
详细的,所述预处理操作具体实施步骤如下所示:
a、去重:获取得到的所述文本数据集中存在重复的文本数据时,会降低文本分类的精度,因此,本发明较佳实施例首先对所述文本数据集执行去重操作。
优选地,本发明通过欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文本数据。当两个文本数据之间的距离小于预设距离阈值,则删除其中一个文本数据。
b、分词:本发明通过预设的策略将所述文本数据集的数据与词典中的词条进行匹配,得到所述文本数据集的特征词,并将所述特征词用空格符号隔开。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
c、去停用词:所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。本发明通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据集中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
d、特征词权重计算:本发明通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。详细地,计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
步骤二、对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
本发明较佳实施例通过文本层次化编码器对预处理操作后的所述文本数据集进行编码。
所述文本层次化编码器包含字嵌入层、第一层bi-LSTM以及第二层bi-LSTM,其中,所述字嵌入层用于生成所述文本词向量集,所述第一层bi-LSTM用于接收所述词向量集作为输入并生成所述文本句子向量集,第二个bi-LSTM层接收所述文本句子向量集作为输入并文本段落向量集。进一步地,本发明通过所述生成的词向量集、句子向量集以及段落向量集建立文本向量集。
本发明优选实施例通过word2vec对所述文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集。所述word2vec是一群用来产生词向量的相关模型。详细地,所述文本层次化编码器操作步骤为:利用独热码(one-hot)形式将所述文本数据集进行量化,得到词汇表向量,将所述词汇表向量输入至所述word2vec中,利用所述word2vec模型的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述文本词向量集。
进一步地,所述bi-LSTM为双向的LSTM(Long Short-Term Memory,长短期记忆网络),即前向LSTM和后向LSTM,用于捕捉文本句子上下文的信息。详细地,将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集。其中,所述最大池化操作计算公式如下所示:
其中,表示输入的单词向量,表示通过最大池化操作获得的一个固定长度的句子向量,其长度和j有关,Rs表示层次记忆的句子分量。
同理,本发明较佳实施例利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
步骤三、对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本标签序列,从而得到所述文本数据集的主题。
本发明较佳实施例中,所述稀疏操作通过自然语言文本的上文内容的“写作习惯”特征和已经预测出的标签序列,对所述自然语言文本中的下文标签规则进行推理出建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:“1.……2.……3.……”。所述有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签或者相同结构标签。在解码过程中,本发明综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到所述变焦神经网络内,使其可以更加高效地处理数据。
进一步地,所述变焦神经网络是一个序列决策模型,即一个循环神经网络模型。本发明通过搭建LSTM的变焦神经网络对稀疏操作后的所述文本向量集进行解码。所述LSTM通过控制输入门和输出门达到保护和控制记忆单元的效果。所述输入门和输出门用于允许LSTM的记忆单元长时间存储和访问序列信息,减少梯度消失问题。当所述输入门保持关闭(即激活值接近0),则新的输入不会进入所述变焦神将网络,所述变焦神经网络中的记忆单元会一直保持开始的激活状态,于是,可以控制所述变焦神经网络模型什么时候接受新的数据,什么时候拒绝新的数据进入。
详细地,本发明通过隐马尔科夫(HMM)对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集,其中,所述标签集用于判断下述LSTM输出的文本隐藏状态序列的标准。所述HMM是一种关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个因观测而产生的随机序列的过程。例如,将输入的文本向量序列作为观测序列Ak=(a1,a2,...an),根据所述隐马尔科夫R=(X,Z,β),所述R=(X,Z,β)是一个三元组用于来简洁的表示一个隐马尔可夫模型,当给定观测序列条件概率P(Y|A)时,建立所述输入的文本向量的隐藏状态序列标签为:Yk=(y1,y2,...yk)。
进一步,本发明较佳实施例利用所述变焦神经网络的LSTM对稀疏操作后的所述文本向量集进行解码,通过所述LSTM的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。所述softmax激活函数是对逻辑回归的推广,用于处理多分类问题。所述softmax激活函数核心公式为:式中xj表示生成的标签为j,其中k表示共有k种标签。
进一步地,本发明较佳实施例还可以包括通过在所述LSTM中构建损失函数进行不断提高所述LSTM的性能。所述损失函数用来评价网络模型输出的预测值与真实值Y之间的差异。其中,当损失函数值越小,网络模型的性能越好。优选地,本发明通过来表示损失函数,根据深度学习中神经元基本公式,所述LSTM各层输入、输出为:
其中,为第1层网络第i个神经元的输入,Wsi-1为第1层网络第i个神经元到第l+1层网络中第j个神经元的链接,Cj为输出层各单元的输出值,本发明根据所述输入输出公式,并利用MSE(Mean Square Error,均方误差)建立损失函数其中,本发明通过ReLU函数relu(x)=max(0,x)缓解LSTM梯度消散问题,所述ReLU函数满足仿生学中的稀疏性,只有当输入值高于一定数目时才激活该神经元节点,当输入值低于0时进行限制,当输入上升到某一阙值以上时,函数中自变量与因变量呈线性关系。
进一步地,本发明通过梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法。详细地,为找到所述损失函数的最小值,需要沿着与梯度向量相反的方向-dL/dy更新变量L,这样可以使得梯度减少最快,直至损失收敛至最小值,其中,参数更新公式为:L=L-αdL/dy,α表示学习率。
可选地,在其他实施例中,文本主题抽取程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本主题抽取程序在文本主题抽取装置中的执行过程。
例如,参照图3所示,为本发明文本主题抽取装置一实施例中的文本主题抽取程序的程序模块示意图,该实施例中,所述文本主题抽取程序可以被分割为文本处理模块10、文本编码模块20、文本解码模块30示例性地:
所述文本处理模块10用于:接收文本数据集,对所述文本数据集进行预处理操作。
所述文本编码模块20用于:对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
所述文本解码模块30用于:对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
上述文本处理模块10、文本编码模块20、文本解码模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或多个处理器执行,以实现如下操作:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
本发明计算机可读存储介质具体实施方式与上述文本主题抽取装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本主题抽取方法,其特征在于,所述方法包括:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
2.如权利要求1所述的文本主题抽取方法,其特征在于,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中:所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
3.如权利要求2所述的文本主题抽取方法,其特征在于,所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
4.如权利要求1所述的文本主题抽取方法,其特征在于,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
5.如权利要求1所述的文本主题抽取方法,其特征在于,所述通过预先构建变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的隐藏状态序列,从而得到所述文本数据集的主题,包括:
通过隐马尔科夫对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集;
利用所述变焦神经网络的长短期记忆网络对稀疏操作后的所述文本向量集进行解码,通过所述长短期记忆网络的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率高低进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。
6.一种文本主题抽取装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文本主题抽取程序,所述文本主题抽取程序被所述处理器执行时实现如下步骤:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
7.如权利要求6所述的文本主题抽取装置,其特征在于,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中:
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
8.如权利要求7所述的文本主题抽取装置,其特征在于,所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词W的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
9.如权利要求6所述的文本主题抽取装置,其特征在于,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的文本主题抽取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910659924.5A CN110502748B (zh) | 2019-07-19 | 2019-07-19 | 文本主题抽取方法、装置及计算机可读存储介质 |
PCT/CN2019/116554 WO2021012485A1 (zh) | 2019-07-19 | 2019-11-08 | 文本主题抽取方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910659924.5A CN110502748B (zh) | 2019-07-19 | 2019-07-19 | 文本主题抽取方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502748A true CN110502748A (zh) | 2019-11-26 |
CN110502748B CN110502748B (zh) | 2024-02-02 |
Family
ID=68586688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910659924.5A Active CN110502748B (zh) | 2019-07-19 | 2019-07-19 | 文本主题抽取方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110502748B (zh) |
WO (1) | WO2021012485A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157853A (zh) * | 2021-05-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 问题挖掘方法、装置、电子设备及存储介质 |
CN113229810A (zh) * | 2021-06-22 | 2021-08-10 | 西安超越申泰信息科技有限公司 | 一种人体行为识别方法、系统及计算机可读存储介质 |
CN115101032A (zh) * | 2022-06-17 | 2022-09-23 | 北京有竹居网络技术有限公司 | 用于生成文本的配乐的方法、装置、电子设备和介质 |
CN115204149A (zh) * | 2022-06-30 | 2022-10-18 | 广东坚美铝型材厂(集团)有限公司 | 基于hdp等价描述的文本主题提取方法、设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378551B (zh) * | 2021-02-22 | 2024-10-01 | 安徽理工大学 | 基于条件熵下随机游走的fw-lda主题识别方法 |
CN115081441A (zh) * | 2021-03-11 | 2022-09-20 | 中国移动通信集团江苏有限公司 | 运维指令意图识别方法、装置、电子设备和存储介质 |
CN114970456B (zh) * | 2022-05-26 | 2024-09-24 | 厦门市美亚柏科信息股份有限公司 | 一种中文词向量压缩方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180267956A1 (en) * | 2017-03-17 | 2018-09-20 | Adobe Systems Incorporated | Identification of reading order text segments with a probabilistic language model |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528655A (zh) * | 2016-10-18 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 文本主题识别方法和装置 |
CN109783794A (zh) * | 2017-11-14 | 2019-05-21 | 北大方正集团有限公司 | 文本分类方法及装置 |
CN109766424B (zh) * | 2018-12-29 | 2021-11-19 | 安徽省泰岳祥升软件有限公司 | 一种阅读理解模型训练数据的过滤方法及装置 |
-
2019
- 2019-07-19 CN CN201910659924.5A patent/CN110502748B/zh active Active
- 2019-11-08 WO PCT/CN2019/116554 patent/WO2021012485A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180267956A1 (en) * | 2017-03-17 | 2018-09-20 | Adobe Systems Incorporated | Identification of reading order text segments with a probabilistic language model |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157853A (zh) * | 2021-05-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 问题挖掘方法、装置、电子设备及存储介质 |
CN113157853B (zh) * | 2021-05-27 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 问题挖掘方法、装置、电子设备及存储介质 |
CN113229810A (zh) * | 2021-06-22 | 2021-08-10 | 西安超越申泰信息科技有限公司 | 一种人体行为识别方法、系统及计算机可读存储介质 |
CN115101032A (zh) * | 2022-06-17 | 2022-09-23 | 北京有竹居网络技术有限公司 | 用于生成文本的配乐的方法、装置、电子设备和介质 |
WO2023241415A1 (zh) * | 2022-06-17 | 2023-12-21 | 北京有竹居网络技术有限公司 | 用于生成文本的配乐的方法、装置、电子设备和介质 |
CN115101032B (zh) * | 2022-06-17 | 2024-06-28 | 北京有竹居网络技术有限公司 | 用于生成文本的配乐的方法、装置、电子设备和介质 |
CN115204149A (zh) * | 2022-06-30 | 2022-10-18 | 广东坚美铝型材厂(集团)有限公司 | 基于hdp等价描述的文本主题提取方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021012485A1 (zh) | 2021-01-28 |
CN110502748B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222160B (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN110502748B (zh) | 文本主题抽取方法、装置及计算机可读存储介质 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN110851596B (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111914067B (zh) | 中文文本匹配方法及系统 | |
CN110442857B (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN110851604B (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
WO2017090051A1 (en) | A method for text classification and feature selection using class vectors and the system thereof | |
CN107180247A (zh) | 基于选择性注意力卷积神经网络的关系分类器及其方法 | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
Ayishathahira et al. | Combination of neural networks and conditional random fields for efficient resume parsing | |
CN110765765B (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN113553510A (zh) | 一种文本信息推荐方法、装置及可读介质 | |
CN111581392B (zh) | 一种基于语句通顺度的自动作文评分计算方法 | |
CN114297388A (zh) | 一种文本关键词提取方法 | |
CN111221942A (zh) | 智能化文本对话生成方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |