CN109815490A - 文本分析方法、装置、设备及存储介质 - Google Patents
文本分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109815490A CN109815490A CN201910009019.5A CN201910009019A CN109815490A CN 109815490 A CN109815490 A CN 109815490A CN 201910009019 A CN201910009019 A CN 201910009019A CN 109815490 A CN109815490 A CN 109815490A
- Authority
- CN
- China
- Prior art keywords
- feature data
- semantic feature
- attention
- text
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000011156 evaluation Methods 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000000513 principal component analysis Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000011430 maximum method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- BYACHAOCSIPLCM-UHFFFAOYSA-N 2-[2-[bis(2-hydroxyethyl)amino]ethyl-(2-hydroxyethyl)amino]ethanol Chemical compound OCCN(CCO)CCN(CCO)CCO BYACHAOCSIPLCM-UHFFFAOYSA-N 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Abstract
本发明涉及人工智能技术,进一步涉及自然语言处理技术领域,公开了一种文本分析方法、装置、设备及存储介质,所述方法包括以下步骤:根据待分析文本获取向量矩阵;使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;使用自注意力机制获取任意两语义特征数据之间的注意力值;获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。本发明能够降低文本分析过程中的计算量。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分析方法、装置、设备及存储介质。
背景技术
问答系统是一种高级形式的信息检索系统,它能够使用准确、简洁的自然语言,回答用户以自然语言提出的问题。在使用时,问答系统需要先通过分析文本来判断用户的意图,才能获取到与用户意图相对应的答案。在分析文本的过程中,需要从文本中提取语义要素,才能进一步满足用户的需求。现有技术中,在文本分析的过程中,通常需要利用循环神经网络(Recurrent Neural Network,RNN),由于循环神经网络需要执行的递归操作次数较多,递归操作的耗时较长,导致在文本分析的过程计算量较大。
发明内容
本发明的主要目的在于提供了一种文本分析方法、装置、设备及存储介质,旨在解决如何降低文本分析过程中的计算量的技术问题。
为实现上述目的,本发明提供了一种文本分析方法,所述方法包括以下步骤:
根据待分析文本获取向量矩阵;
使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
使用自注意力机制获取任意两语义特征数据之间的注意力值;
获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
优选地,根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树的步骤,具体包括:
将第一语义特征数据作为根节点,所述第一语义特征数据为所述多个语义特征数据中,对应的注意力评价值最大的语义特征数据;
将多个第二语义特征数据对应作为多个第一子节点,将所述多个第一子节点连接于所述根节点,所述第二语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据外且对应的所述注意力评价值不小于预设的评价阀值的所述语义特征数据;
将多个第三语义特征数据对应作为多个第二子节点,按照与所述多个第二子节点对应的多个注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,以生成语义树,所述第三语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据和所述多个第二语义特征数据外的语义特征数据。
优选地,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点的步骤,具体包括:
获取当前语义子树,所述当前语义子树为由相连接的多个节点组成,任一节点为根节点,或者第一子节点,或者第二子节点;
获取第一节点,所述第一节点为不属于所述当前语义子树且待连接于所述当前语义子树的一第二子节点;
在所述当前语义子树中查找目标节点,所述目标节点为所述当前语义子树的所述多个节点中,与所述第一节点之间的所述注意力值为最大的节点;
将所述第一节点连接于所述目标节点。
优选地,根据待分析文本获取向量矩阵的步骤,具体包括:
对待分析文本进行分词处理,获取待处理字词;
将所述待处理字词转化为字词向量;
根据所述字词向量生成向量矩阵,以实现对向量矩阵的获取。
优选地,对待分析文本进行分词处理,获取待处理字词的步骤,具体包括:
获取所述待分析文本的文本类别;
根据所述文本类别,选取与所述文本类别对应的分词词典;
利用选取的所述分词词典对所述待分析文本进行分词处理,以获取待处理字词。
优选地,获取与所述多个语义特征数据一一对应的多个注意力评价值的步骤,具体包括:
获取第一语义特征数据,所述第一语义特征数据为所述多个语义特征数据其中之一;
查找所述第一语义特征数据与其他所有语义特征数据之间的注意力值,将查找到的各注意力值作为第一注意力值;
根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值。
优选地,根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值的步骤,具体为:
将所述第一语义特征数据的所有第一注意力值求和,作为所述第一语义特征数据的注意力评价值。
此外,为实现上述目的,本发明还提出一种文本分析装置,包括:
获取模块,用于根据待分析文本获取向量矩阵;
提取模块,用于使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
所述获取模块还用于使用自注意力机制获取任意两语义特征数据之间的注意力值;
计算模块,用于获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
生成模块,用于根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
此外,为实现上述目的,本发明还提出一种文本分析设备,所述文本分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分析程序,所述文本分析程序配置为实现如上文所述的文本分析方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本分析程序,所述文本分析程序被处理器执行时实现如上文所述的文本分析方法的步骤。
本发明的技术方案中,通过使用主成分分析网络提取语义特征数据,并利用自注意力机制生成语义树,能够实现对用户以自然语言提出的问题进行答复。并且,由于主成分分析网络和自注意力机制均不需要进行递归操作,从而减小文本分析的过程计算量且消耗时长。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的文本分析设备的结构示意图;
图2为本发明文本分析方法第一实施例的流程示意图;
图3为本发明文本分析方法第二实施例的流程示意图;
图4为本发明文本分析方法第三实施例的流程示意图;
图5为本发明文本分析方法第四实施例的流程示意图;
图6为本发明文本分析方法第五实施例的流程示意图;
图7为本发明文本分析方法第六实施例的流程示意图;
图8为本发明文本分析装置的第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本分析设备结构示意图。
如图1所示,该文本分析设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对文本分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及文本分析程序。
在图1所示的文本分析设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文本分析设备中的处理器1001、存储器1005可以设置在文本分析设备中,所述文本分析设备通过处理器1001调用存储器1005中存储的文本分析程序,并执行本发明实施例提供的文本分析方法。
本发明实施例提供了一种文本分析方法,参照图2,图2为本发明文本分析方法第一实施例的流程示意图。
本实施例中,所述文本分析方法包括以下步骤:
步骤S100:根据待分析文本获取向量矩阵;
需要说明的是,所述待分析文本可以由用户输入,也可以通过语音识别等方式获取。本发明对将待分析文本转化为向量矩阵的具体方式不作限制,在具体实现中,可以通过词嵌入技术等方式将待分析文本转化为向量矩阵,词嵌入技术是指,把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个字或词被映射为实数域上的向量。所述向量矩阵具体可以由字向量组成,也可以由词向量组成。所述向量矩阵还可以为由字向量和词向量组成的向量矩阵,例如:词向量为Xw,字向量为Xc,通过将所述词向量和所述字向量拼接可以得到所述向量矩阵[Xw:Xc]。
步骤S200:使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
需要说明的是,卷积神经网络(Convolutional Neural Network,CNN)是一种使用卷积运算来替代一般的矩阵乘法运算的神经网络,其主要用于处理具有类似网格结构的数据。卷积神经网络通过在不同的位置对相同的特性进行计算,能够实现从矩阵中查找特征。而主成分分析网络(Principal Components Analysis Net,PCANet)是一种对卷积神经网络进行改进而得到的网络,主成分分析网络与传统的卷积神经网络相比,改进之处在于采用了主成分分析(Principal Components Analysis,PCA)滤波器作为卷积神经网络中的卷积核,利用降维使分类的目的性得到提高,从而能够提高对局部语义特征的捕捉精度。在具体实现中,卷积神经网络中作为卷积核的主成分分析滤波器可以通过训练的方式获得。通常的采用训练方法为:根据输出结果和目标结果之间的误差,依次计算得到卷积神经网络中各节点的误差,并根据各节点的误差进行权值更新,权值更新后再重新计算输出结果,并将输出结果和目标结果进行比较,不断地重复这一过程以完成训练。
可理解的是,本发明采用主成分分析网络而不是传统的卷积神经网络提取语义特征数据,由于与传统的卷积神经网络相比,主成分分析操作的分类目的更强,故在文本规模较大但目标字段较为稀疏的情况下,在保证准确率的前提下,利于计算速度的提高。
步骤S300:使用自注意力机制获取任意两语义特征数据之间的注意力值;
需要说明的是,注意力机制(Attention Mechanism)能够通过赋予权重,实现从大量信息中有选择地筛选出少量重要信息,从而聚焦到这些重要信息,以利于对文本的分析。自注意力机制(Self-Attention Mechanism),又称为内部注意力机制,是一种对注意力机制进行改进而得到的机制。具体地,自注意力机制为一种能够捕捉到同一文本中的不同语义特征数据之间的关联的机制,根据不同语义特征数据之间的相似性和关联性,可以获取不同语义特征数据之间的注意力值。
举例而言,局部特征数据中包括“我”、“喜欢”和“跑步”,由于局部特征数据“我”和“喜欢”能够体现文本作者的情绪,故可以将局部特征数据“我”和“喜欢”之间的注意力值设置得较高,而局部特征数据“我”和“跑步”之间关联较少,故可以将局部特征数据“我”和“跑步”之间的注意力值设置得较小。在具体实现中,所述自注意力机制可以通过训练得到,与前述训练主成分分析网络的方式相似,对自注意力机制的训练也可以通过比较输出结果和目标结果实现。
步骤S400:获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
需要说明的是,计算任一所述语义特征数据的注意力评价值,为根据该所述语义特征数据与其他所有语义特征数据之间的所述注意力值进行,这样可以实现根据所述注意力评价值,来判断该所述语义特征数据在语义上的重要性。本发明对于所述注意力评价值的具体计算方法不作限制,所述注意力评价值具体可以为通过平均加权等方式计算得到,举例而言,如果在所述步骤S200中,通过主成分分析网络从所述向量矩阵中提取到4个语义特征数据,其中一个语义特征数据与另外三个语义特征数据之间的注意力值为0.2、0.3和0.4,可以通过加权平均的方法计算得到该语义特征数据的注意力评价值为(0.2+0.3+0.4)/3,即为0.3。
步骤S500:根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
需要说明的是,所述语义树为通过将所述语义特征数据进行链式存储,而形成的树状数据。通过所述语义树能够体现各所述语义特征数据之间的关系。在具体实现中,如果问答系统为通过知识图谱查找答案,可以只将用户输入的问题文本作为待分析文本,通过文本分析得到语义树,并利用得到的语义树和知识图谱内查找答案,以答复用户。如果问答系统为通过答案文本查找答案,可以将用户输入的问题文本和答案文本各自生成语义树,并将由问题文本生成的语义树与由答案文本生成的语义树进行比较,以在答案文本内查找到提供给用户的答案,从而答复客户。
本实施例中,通过使用主成分分析网络提取语义特征数据,并利用自注意力机制生成语义树,能够实现对用户以自然语言提出的问题进行答复。并且,由于主成分分析网络和自注意力机制均不需要进行递归操作,从而减小文本分析的过程计算量且消耗时长。
参考图3,图3为本发明文本分析方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S500具体可以包括以下步骤:
步骤S510:将第一语义特征数据作为根节点,所述第一语义特征数据为所述多个语义特征数据中,对应的注意力评价值最大的语义特征数据;
需要说明的是,语义树通常包括根节点、以及直接或者间接地连接于所述根节点的子节点。本步骤中,通过将注意力评价值最大的所述语义特征数据作为根节点,利于提高对所述待分析文本的分析的准确性。
步骤S520:将多个第二语义特征数据对应作为多个第一子节点,将所述多个第一子节点连接于所述根节点,所述第二语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据外且对应的所述注意力评价值不小于预设的评价阀值的所述语义特征数据;
可理解的是,当所述评价阀值设置得过小时,会导致第一子节点的数量过多,进而导致语义树的能够反映的在语义上的逻辑性较低,当所述评价阀值设置得过大时,会导致第一子节点的数量较少,而连接于第一子节点的剩余节点的数量较多,容易导致语义树被遍历时的速度降低。在具体实现中,所述评价阀值可以根据实际需要设置,也可以设置多个不同大小的所述评价阀值,以供根据实际情况选取。具体地,可以当所述待分析文本字数较多时,选取较小的所述评价阀值,而当所述待分析文本字数较少时,选取较大的所述评价阀值,以兼顾语义树的逻辑性和遍历速度。
步骤S530:将多个第三语义特征数据对应作为多个第二子节点,按照与所述多个第二子节点对应的多个注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,以生成语义树,所述第三语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据和所述多个第二语义特征数据外的语义特征数据。
需要说明的是,通过按照与所述多个第二子节点对应的多个所述注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,使得注意力评价值较大的所述第二子节点能够先连接,从而可以更加靠近根节点,以利于提高对所述待分析文本的分析的准确性。
本实施例中,通过将所述多个语义特征数据根据各自的注意力评价值作为根节点、第一子节点和第二子节点,将所述多个第一子节点连接于所述根节点,按照与所述多个第二子节点对应的多个所述注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,利于提高对所述待分析文本的分析的准确性。
参考图4,图4为本发明文本分析方法第三实施例的流程示意图。
基于上述第二实施例,所述步骤S530具体包括如下步骤:
步骤S531:获取当前语义子树,所述当前语义子树为由相连接的多个节点组成,任一节点为根节点,或者第一子节点,或者第二子节点;
需要说明的是,所述当前语义子树可以只包含根节点和第一子节点,也可以包含根节点、第一子节和第二子节点。将所有的第二子节点均连接于所述当前语义子树后,才能够获得所述语义树。
步骤S532:获取第一节点,所述第一节点为不属于所述当前语义子树且待连接于所述当前语义子树的一第二子节点;
需要说明的是,本步骤中的所述第一节点,为按照与所述多个第二子节点对应的多个所述注意力评价值从大到小的顺序,而需要连接的节点。
步骤S533:在所述当前语义子树中查找目标节点,所述目标节点为所述当前语义子树的所述多个节点中,与所述第一节点之间的所述注意力值为最大的节点;
步骤S534:将所述第一节点连接于所述目标节点。
需要说明的是,本步骤之后可以继续获取另一个第二子节点作为第一节点,并将另一个所述第一节点也连接于当前语义子树,直至将所有的第二子节点均连接于所述当前语义子树,以实现获取所述语义树。
本实施例中,通过将与所述第一节点之间的所述注意力值为最大的所述节点作为目标节点,使得查找到的目标节点与所述第一节点在语义上具有最大程度的关联性,从而能够确保所述语义树的逻辑性,利于提高对所述待分析文本的分析的准确性。
参考图5,图5为本发明文本分析方法第四实施例的流程示意图。
基于上述第一实施例,所述步骤S100具体包括如下步骤:
步骤S110:对待分析文本进行分词处理,获取待处理字词;
需要说明的是,本发明对于分词采用的具体方式不作限制,具体地,可以利用分词词典,采用正向最大匹配算法等方法实现分词。所述正向最大匹配算法为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
步骤S120:将所述待处理字词转化为字词向量;
本发明对于将字词转化为字词向量的具体方式不作限制,所述字词向量可以根据字词在词典中的索引确定,比如:one-hot词向量,所述字词向量也可以为根据预设的训练将字词映射为向量而确定,比如:分布式词向量。
步骤S130:根据所述字词向量生成向量矩阵,以实现对向量矩阵的获取。
本发明对于生成向量矩阵的具体方式不作限制,具体地,可以按照字词的在所述待分析文本中出现的先后顺序,将字词向量拼合成为向量矩阵。
本实施例中,通过分词处理获取待处理字词,将所述待处理字词转化为字词向量,根据所述字词向量生成向量矩阵,使得获取的待处理字词更加符合语法规则,利于进一步利用向量矩阵内的数据实现文本分析。
参考图6,图6为本发明文本分析方法第五实施例的流程示意图。
基于上述第一实施例,所述步骤S110具体包括如下步骤:
步骤S111:获取所述待分析文本的文本类别;
所述文本类别可以通过对问答系统中的答案文本预先进行分类而获取,也可以通过根据用户提出问题的板块而获取。比如:文本类别具体可以包括销售类、维修类和意见投诉类等。
步骤S112:根据所述文本类别,选取与所述文本类别对应的分词词典;
步骤S113:利用选取的所述分词词典对所述待分析文本进行分词处理,以获取待处理字词。
本实施例中,通过对不同类别的待分析文本,采用不同的分词词典,使得对待分析文本的分词处理能够根据其文本类别进行,利于提高分词结果的准确性,从而利于使文本分析更加准确。
参考图7,图7为本发明文本分析方法第六实施例的流程示意图。
基于上述第一实施例,所述步骤S400具体包括如下步骤:
步骤S410:获取第一语义特征数据,所述第一语义特征数据为所述多个语义特征数据其中之一;
步骤S420:查找所述第一语义特征数据与其他所有语义特征数据之间的注意力值,将查找到的各注意力值作为第一注意力值;
步骤S430:根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值。
需要说明的时,本发明对于计算注意力评价值的具体算法不作限制,具体地,可以将所述第一语义特征数据的所有第一注意力值求和,作为所述第一语义特征数据的注意力评价值。本步骤之后可以继续获取另一个第一语义特征数据,并计算对应的注意力评价值,直至与所述多个语义特征数据对应的所述多个注意力评价值均被获取。
本实施例中,通过查找所述第一语义特征数据与其他所有语义特征数据之间的所述注意力值,作为第一注意力值,并根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值,能够避免语义特征数据的数量较多时,计算发生错漏,从而提高对所述注意力评价值计算的准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本分析程序,所述文本分析程序被处理器执行时实现如上文所述的文本分析方法的步骤。
参照图8,图8为本发明文本分析装置第一实施例的结构框图。
如图8所示,本发明实施例提出的文本分析装置包括:
获取模块100,用于根据待分析文本获取向量矩阵;
提取模块200,用于使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
所述获取模块100还用于使用自注意力机制获取任意两语义特征数据之间的注意力值;
计算模块300,用于获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
生成模块400,用于根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
本发明文本分析装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本分析方法,其特征在于,所述方法包括以下步骤:
根据待分析文本获取向量矩阵;
使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
使用自注意力机制获取任意两语义特征数据之间的注意力值;
获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
2.如权利要求1所述的文本分析方法,其特征在于,根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树的步骤,具体包括:
将第一语义特征数据作为根节点,所述第一语义特征数据为所述多个语义特征数据中,对应的注意力评价值最大的语义特征数据;
将多个第二语义特征数据对应作为多个第一子节点,将所述多个第一子节点连接于所述根节点,所述第二语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据外且对应的注意力评价值不小于预设的评价阀值的语义特征数据;
将多个第三语义特征数据对应作为多个第二子节点,按照与所述多个第二子节点对应的多个注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,以生成语义树,所述第三语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据和所述多个第二语义特征数据外的语义特征数据。
3.如权利要求2所述的文本分析方法,其特征在于,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点的步骤,具体包括:
获取当前语义子树,所述当前语义子树为由相连接的多个节点组成,任一节点为根节点,或者第一子节点,或者第二子节点;
获取第一节点,所述第一节点为不属于所述当前语义子树且待连接于所述当前语义子树的一第二子节点;
在所述当前语义子树中查找目标节点,所述目标节点为所述当前语义子树的所述多个节点中,与所述第一节点之间的所述注意力值为最大的节点;
将所述第一节点连接于所述目标节点。
4.如权利要求1所述的文本分析方法,其特征在于,根据待分析文本获取向量矩阵的步骤,具体包括:
对待分析文本进行分词处理,获取待处理字词;
将所述待处理字词转化为字词向量;
根据所述字词向量生成向量矩阵,以实现对向量矩阵的获取。
5.如权利要求1所述的文本分析方法,其特征在于,对待分析文本进行分词处理,获取待处理字词的步骤,具体包括:
获取所述待分析文本的文本类别;
根据所述文本类别,选取与所述文本类别对应的分词词典;
利用选取的所述分词词典对所述待分析文本进行分词处理,以获取待处理字词。
6.如权利要求1所述的文本分析方法,其特征在于,获取与所述多个语义特征数据一一对应的多个注意力评价值的步骤,具体包括:
获取第一语义特征数据,所述第一语义特征数据为所述多个语义特征数据其中之一;
查找所述第一语义特征数据与其他所有语义特征数据之间的注意力值,将查找到的各注意力值作为第一注意力值;
根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值。
7.如权利要求6所述的文本分析方法,其特征在于,根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值的步骤,具体为:
将所述第一语义特征数据的所有第一注意力值求和,作为所述第一语义特征数据的注意力评价值。
8.一种文本分析装置,其特征在于,包括:
获取模块,用于根据待分析文本获取向量矩阵;
提取模块,用于使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
所述获取模块还用于使用自注意力机制获取任意两语义特征数据之间的注意力值;
计算模块,用于获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
生成模块,用于根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
9.一种文本分析设备,其特征在于,所述文本分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分析程序,所述文本分析程序配置为实现如权利要求1至7中任一项所述的文本分析方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有文本分析程序,所述文本分析程序被处理器执行时实现如权利要求1至7任一项所述的文本分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910009019.5A CN109815490B (zh) | 2019-01-04 | 2019-01-04 | 文本分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910009019.5A CN109815490B (zh) | 2019-01-04 | 2019-01-04 | 文本分析方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815490A true CN109815490A (zh) | 2019-05-28 |
CN109815490B CN109815490B (zh) | 2023-11-14 |
Family
ID=66604036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910009019.5A Active CN109815490B (zh) | 2019-01-04 | 2019-01-04 | 文本分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815490B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144126A (zh) * | 2019-12-24 | 2020-05-12 | 北京三快在线科技有限公司 | 一种语义分析模型的训练方法、语义分析方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120352A1 (fr) * | 2005-05-12 | 2006-11-16 | Kabire Fidaali | Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique |
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
CN106155999A (zh) * | 2015-04-09 | 2016-11-23 | 科大讯飞股份有限公司 | 自然语言语义理解方法及系统 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
-
2019
- 2019-01-04 CN CN201910009019.5A patent/CN109815490B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120352A1 (fr) * | 2005-05-12 | 2006-11-16 | Kabire Fidaali | Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique |
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
CN106155999A (zh) * | 2015-04-09 | 2016-11-23 | 科大讯飞股份有限公司 | 自然语言语义理解方法及系统 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144126A (zh) * | 2019-12-24 | 2020-05-12 | 北京三快在线科技有限公司 | 一种语义分析模型的训练方法、语义分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109815490B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241255B (zh) | 一种基于深度学习的意图识别方法 | |
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
CN110032623B (zh) | 用户问句与知识点标题的匹配方法和装置 | |
CN107688608A (zh) | 智能语音问答方法、装置、计算机设备和可读存储介质 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN110413319B (zh) | 一种基于深度语义的代码函数味道检测方法 | |
CN109993057A (zh) | 语义识别方法、装置、设备及计算机可读存储介质 | |
CN107451118A (zh) | 基于弱监督深度学习的句子级情感分类方法 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN109726745A (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN111177386B (zh) | 一种提案分类方法及系统 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN110377739A (zh) | 文本情感分类方法、可读存储介质和电子设备 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN111680264B (zh) | 一种多文档阅读理解方法 | |
CN114065848A (zh) | 一种基于预训练情感嵌入的中文方面级别情感分类方法 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN113688624A (zh) | 一种基于语言风格的人格预测方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN109815490A (zh) | 文本分析方法、装置、设备及存储介质 | |
CN113159831A (zh) | 一种基于改进的胶囊网络的评论文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |