CN110688446A - 一种句义数学空间表示方法、系统、介质和设备 - Google Patents

一种句义数学空间表示方法、系统、介质和设备 Download PDF

Info

Publication number
CN110688446A
CN110688446A CN201910782093.0A CN201910782093A CN110688446A CN 110688446 A CN110688446 A CN 110688446A CN 201910782093 A CN201910782093 A CN 201910782093A CN 110688446 A CN110688446 A CN 110688446A
Authority
CN
China
Prior art keywords
sentence
neural network
network
sub
symmetric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910782093.0A
Other languages
English (en)
Other versions
CN110688446B (zh
Inventor
彭德光
孙健
汤宇腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Trillion Light Polytron Technologies Inc
Original Assignee
Chongqing Trillion Light Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Trillion Light Polytron Technologies Inc filed Critical Chongqing Trillion Light Polytron Technologies Inc
Priority to CN201910782093.0A priority Critical patent/CN110688446B/zh
Publication of CN110688446A publication Critical patent/CN110688446A/zh
Application granted granted Critical
Publication of CN110688446B publication Critical patent/CN110688446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出一种句义数学空间表示方法、系统、介质和设备,包括:创建对称神经网络,对所述对称神经网络进行初始化;获取非结构化句子数据,创建句子数据集;对所述句子数据集进行预处理,获取所述句子数据集中的句义特征序列;将所述句义特征序列输入所述对称神经网络,获取所述句义特征序列的时序映射关系,通过所述时序映射关系形成句子的数学空间表示;本发明将领域知识形成句义的数学表示,可有效提高句子级检索的效率和准确性。

Description

一种句义数学空间表示方法、系统、介质和设备
技术领域
本发明涉及自然语言处理领域,尤其涉及一种句义数学空间表示方法、系统、介质和设备。
背景技术
互联网时代各领域知识极其丰富,复杂度也在不断扩张,对于领域知识的维护也变得愈发困难,由于领域知识数量上的急剧增加,如何在大量的领域知识中检索用户需要的信息,是目前亟需解决的问题。传统的信息检索的研究多集中在文档级的检索场景中,而句子级的检索在信息需求相对明确的检索场景下具有非常重要的意义,如何提高句义检索准确性,也是自然语言处理领域研究的重大课题。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种句义数学空间表示方法、系统、介质和设备,主要解决句义的空间映射问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种句义数学空间表示方法,包括:
创建对称神经网络,对所述对称神经网络进行初始化;
获取非结构化句子数据,创建句子数据集;
对所述句子数据集进行预处理,获取所述句子数据集中的句义特征序列;
将所述句义特征序列输入所述对称神经网络,获取所述句义特征序列的时序映射关系,通过所述时序映射关系形成句子的数学空间表示。
可选地,所述创建对称神经网络包括:
构建神经网络的拓扑结构,获取第一子网络,根据设定的关联矩阵创建与所述第一子网络具有相同拓扑结构的第二子网络,第一子网络与第二子网络互为对称关系;
构造所述第一子网络和所述第二子网络间的的误差函数,根据所述误差函数构造目标函数;
初始化所述第一子网络和所述第二子网络的权值和阈值,获取对称神经网络。
可选地,所述误差函数为:
e(k)=f(xk,θ)-Mf(xk-1,θ)
其中,M为设定的所述对称神经网络的所述关联矩阵,xk和xk-1分别为两个相邻句义特征序列组成的所述对称神经网络的输入;f为所述对称神经网络的子网络;θ为所述对称神经网络参数。
可选地,所述目标函数为:
Figure BDA0002176919080000021
其中,e(K)为所述子网络的误差函数。
可选地,所述对所述句子数据集进行预处理,包括:
根据所述句子数据集,建立评价指标体系;
对所述评价指标体系进行标准化,获取标准化指标;
根据所述标准化指标对句子中的词向量进行核函数变换,计算所述句子数据集中对应句子的信息熵;
根据计算得到的所述信息熵,选出由对应句子中的词向量经核函数变换后的的关键特征组成句义特征序列。
可选地,所述获取所述句义特征向量的空间映射关系,包括:
将所述句义特征序列作为所述对称神经网络的输入,利用所述对称神经网络的对称结构计算各所述句义特征序列间的误差;
采用梯度下降算法计算所述对称神经网络的最优解,获取输入节点与输出节点的映射关系,由子网络构建句义特征向量的空间映射关系。
可选地,所述梯度下降算法的梯度下降函数为:
Figure BDA0002176919080000022
其中,θ为所述对称神经网络的参数,α为学习步长,θ的下标t为学习的批次。
一种句义数学空间表示系统,包括:
网络创建模块,用于创建对称神经网络,对所述对称神经网络进行初始化;
数据集创建模块,用于获取非结构化句子数据,创建句子数据集;
数据预处理模块,用于对所述句子数据集进行预处理,获取所述句子数据集中的句义特征序列;
网络训练模块,用于将所述句义特征序列输入所述对称神经网络,获取所述句义特征序列的时序映射关系,通过所述时序映射关系形成句子的数学空间表示。
一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现所述的句义数学空间表示方法。
一种设备,包括处理器和存储器;其中,
所述存储器用于存储计算机程序;
所述处理器用于加载并执行所述计算机程序,使得所述设备执行所述的句义数学空间表示方法。
如上所述,本发明一种句义数学空间表示方法、系统、介质和设备,具有以下有益效果。
可根据需求将结构化句子转化为句义的数学空间表示,增强句义的关联性,有利于提高句义检索的准确性。
附图说明
图1为本发明一实施例中句义数学空间表示方法的流程图。
图2为本发明一实施例中句义数学空间表示系统的模块图。
图3为本发明一实施例中设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种句义数学空间表示方法,具体包括步骤S01-S04。
在步骤S01中,创建对称神经网络,对对称神经网络进行初始化:
首先构建神经网络的拓扑结构,以递归神经网络为例,构建递归神经网络输入层、隐含层和输出层的网络节点,各层节点的数量可根据需要进行设置,如输入层可只设置一个节点作为输入节点,将输入层节点与隐含层节点进行全连接。隐含层可包含多层节点,每层节点之间不相互连接,按常规递归神经网络节点的连接方式构造递归神经网络的拓扑结构。以此构建的递归神经网络作为第一子网络。
在一实施例中,创建与第一子网络具有相同拓扑结构的第二子网络,即第两网络呈互为对称结构。设置关联矩阵,将第一子网络和第二子网络的输出层的节点进行关联,通过第一子网络和第二子网络构成对称神经网络的拓扑结构。同时对各层节点的连接权重及阈值进行初始化,可采用随机初始化的方式对权重设置初值,以完成对称神经网络的创建。
在一实施例中,可设置第一子网络和第二子网络的误差函数,其误差函数可表示为:
e(k)=f(xk,θ)-Mf(xk-1,θ)
其中,M为设定的对称神经网络的关联矩阵,xk和xk-1分别为两个相邻所述句义特征序列组成的所述对称神经网络的输入;f为所述对称神经网络的子网络;θ为所述对称神经网络参数。
在步骤S02中,获取非结构化句子数据,创建句子数据集:
可针对某一领域的专业知识抓取网站上的结构化文本数据,以法律领域为例,可从法务之家等网站中提取法律知识、法律案例相关的文本数据。再以抓取的文本数据中的句号作为断句标识符,提取出文本中的句子数据,以文本的句子数据创建句子数据集。在一实施例中,句子数据的创建可以按照句子在文本中的先后顺序组成句子序列。非结构化文本的抓取可采用Python等爬虫软件爬取,也可通过与服务器端文本数据库建立连接,直接读取。
在步骤S03中,对句子数据集进行预处理,获取句子数据集中的句义特征序列:
句子数据集中的句子数据包含完整的句子内容,无可避免的包含有冗余的或对句子句义贡献较低的单词或词组。因此需要对句子内容进行过滤。在一实施例中,可采用熵权法对句子内容进行过滤。根据信息论,信息熵是描述混乱程度的量纲,某一指标的信息熵越大,则表示该指标的状态越不稳定,能够提供的准确信息量也就越少,相反,指标的信息熵越大,则表示指标对应的状态越稳定,可提供的信息量越多,指标对应的信息量越多,在综合评价中所起到的作用也就越大,因此,信息熵的大小也可用于描述指标的重要程度。具体地,根据句子数据集对应的专业领域,如法律领域,可整理法律领域的专用词汇、短语等作为句子句义的评价指标建立评价指标体系,也可针对具体的法律问题中的关键词句创建询问文本的评价指标体系。
在一实施例中,对评价指标体系进行标准化,获取标准化指标,并根据标准化指标计算所述句子数据集中每个句子的信息熵。
假设评价指标体系有K个指标X1,X2,…,Xk,其中Xi={x1,x2,…,xn}。各指标标准化后的值为Y1,Y2,…,Yk,则:
Figure BDA0002176919080000051
其中计算评价指标的输入数据可由句子中的词向量序列经核函数变换得到,以径向基核函数为例,径向基可表示为:
Figure BDA0002176919080000052
其中,xi表示句子数据集中的第i个词向量序列。
每个指标包含n维数值,用于本方案的熵权计算,评价指标体系也可以为以高维矩阵,统计句子中对应指标的出现评率,作为矩阵中指标某一维对应的取值。计算句子的信息熵便可转换为计算评价指标体系中对应指标的信息熵。
根据信息熵的定义,信息熵可表示为:
Figure BDA0002176919080000053
其中,
Figure BDA0002176919080000054
根据计算得到的各指标的信息熵,以及设置的信息熵阈值,可筛选出句子中对句义贡献较高的特征数据,经过词向量核函数变换获取输出,组成特征序列,对特征序列进行二进制编码可得到每个句子对应的句义特征序列。将所述句义特征序列作为前述对称神经网络的输入。
在步骤S04中,将句义特征序列输入对称神经网络,获取句义特征序列的时序映射关系,通过时序映射关系,形成句子的数学空间表示。
在一实施例中,句义特征序列可分组分批次逐次输入对称神经网络,以一组两个句义特征序列为例,设置对称神经网络中的两个子网络间的误差函数为:
e(k)=f(xk,θ)-Mf(xk-i,θ)
其中,M为设定的对称神经网络的关联矩阵,xk和xk-1分别为两个句义特征序列组成的对称神经网络的输入;f为对称神经网络的子网络;θ为对称神经网络参数。
根据子网络的误差函数设置对称神经网络的目标函数,目标函数可表示为,
Figure BDA0002176919080000061
其中,e(K)为对称神经网络中两子网络间误差函数。
在一实施中,将两个句义特征序列分别输入对称神经网络的第一子网络和第二子网络中利用神经网络的对称结构,可以计算出一组句义特征序列间的误差。采用梯度下降算法计算对称神经网络的最优解,以目标函数对对称神经网络的参数求偏导,构造梯度下降函数,表示为:
其中,θ为对称神经网络的参数,α为学习步长,θ的下标t为学习的批次。通过梯度下降函数更新对称神经网络的参数。
在一实施例中,子网络的递归神经网络也可采用长短期记忆神经网络,利用长短期记忆神经网络特有的遗忘门,实现相邻批次间句义特征序列的关联计算。
训练完成后,第一子网络或第二子网络的输出即为句义空间表达。经过对称神经网络的计算,形成句义的特征向量表示,可依据此向量表示直接计算文本与被文本之间的相似度,可用于句义查询,检索等应用。
根据本发明的实施例,还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如:软盘、硬盘、磁带)、光介质(如:DVD)、或者半导体介质(如:固态硬盘Solid State Disk(SSD))等。
请参阅图2,本实施例还提供了一种句义数学空间表示系统,网络创建模块10、数据集创建模块11、数据预处理模块12、网络训练模块13;于本系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做,数据集重复性赘述。网络创建模块10用于执行前述方法实施例介绍的步骤S01;数据集创建模块11用于执行前述方法实施例介绍的步骤S02;数据预处理模块12用于执行前述方法实施例介绍的步骤S03;网络训练模块13用于执行前述方法实施例介绍的步骤S04。
请参阅图3,本实施例提供一种设备,设备可以是台式机、便携式电脑等,具体地,设备至少包括处理器20和存储器21。
处理器20用于执行前述方法实施例中的全部或部分步骤。处理器20可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明一种句义数学空间表示方法、系统、介质和设备,句子不仅包含单词还可包含具有更丰富含义的短语或词组,将句子作为输入,可获取更为丰富的句义信息,可有效提高基于句义的识别应用的准确性;采用熵权法对句子数据进行预处理,可以剔除无意义的单词或词组,对句义贡献大的单词或词组进行自动标注,可部分代替人工,提高效率。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种句义数学空间表示方法,其特征在于,包括:
创建对称神经网络,对所述对称神经网络进行初始化;
获取非结构化句子数据,创建句子数据集;
对所述句子数据集进行预处理,获取所述句子数据集中的句义特征序列;
将所述句义特征序列输入所述对称神经网络,获取所述句义特征序列的时序映射关系,通过所述时序映射关系形成句子的数学空间表示。
2.根据权利要求1所述的句义数学空间表示方法,其特征在于,所述创建对称神经网络包括:
构建神经网络的拓扑结构,获取第一子网络,根据设定的关联矩阵创建与所述第一子网络具有相同拓扑结构的第二子网络,第一子网络与第二子网络互为对称关系;
构造所述第一子网络和所述第二子网络间的的误差函数,根据所述误差函数构造目标函数;
初始化所述第一子网络和所述第二子网络的权值和阈值,获取对称神经网络。
3.根据权利要求2所述的句义数学空间表示方法,其特征在于,所述误差函数为:
e(k)=f(xk,θ)-Mf(xk-1,θ)
其中,M为设定的所述对称神经网络的所述关联矩阵,xk和xk-1分别为两个相邻所述句义特征序列组成的所述对称神经网络的输入;f为所述对称神经网络的子网络;θ为所述对称神经网络参数。
4.根据权利要求2所述的句义数学空间表示方法,其特征在于,所述目标函数为:
其中,e(K)为所述子网络的误差函数。
5.根据权利要求1所述的句义数学空间表示方法,其特征在于,所述对所述句子数据集进行预处理,包括:
根据所述句子数据集,建立评价指标体系;
对所述评价指标体系进行标准化,获取标准化指标;
根据所述标准化指标对句子中的词向量进行核函数变换,计算所述句子数据集中对应句子的信息熵;
根据计算得到的所述信息熵,选出由对应句子中的词向量经核函数变换后的的关键特征组成句义特征序列。
6.根据权利要求1所述的句义数学空间表示方法,其特征在于,所述获取所述句义特征向量的空间映射关系,包括:
将所述句义特征序列作为所述对称神经网络的输入,利用所述对称神经网络的对称结构计算各所述句义特征序列间的误差;
采用梯度下降算法计算所述对称神经网络的最优解,获取输入节点与输出节点的映射关系,由子网络构建句义特征向量的空间映射关系。
7.根据权利要求1所述的句义数学空间表示方法,其特征在于,所述梯度下降算法的梯度下降函数为:
Figure FDA0002176919070000021
其中,θ为所述对称神经网络的参数,α为学习步长,θ的下标t为学习的批次。
8.一种句义数学空间表示系统,其特征在于,包括:
网络创建模块,用于创建对称神经网络,对所述对称神经网络进行初始化;
数据集创建模块,用于获取非结构化句子数据,创建句子数据集;
数据预处理模块,用于对所述句子数据集进行预处理,获取所述句子数据集中的句义特征序列;
网络训练模块,用于将所述句义特征序列输入所述对称神经网络,获取所述句义特征序列的时序映射关系,通过所述时序映射关系形成句子的数学空间表示。
9.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序被处理器加载执行时,实现权利要求1至7任一所述的方法。
10.一种设备,其特征在于,包括处理器和存储器;其中,
所述存储器用于存储计算机程序;
所述处理器用于加载并执行所述计算机程序,使得所述设备执行权利要求1至7中任一所述的方法。
CN201910782093.0A 2019-08-23 2019-08-23 一种句义数学空间表示方法、系统、介质和设备 Active CN110688446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910782093.0A CN110688446B (zh) 2019-08-23 2019-08-23 一种句义数学空间表示方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910782093.0A CN110688446B (zh) 2019-08-23 2019-08-23 一种句义数学空间表示方法、系统、介质和设备

Publications (2)

Publication Number Publication Date
CN110688446A true CN110688446A (zh) 2020-01-14
CN110688446B CN110688446B (zh) 2023-04-14

Family

ID=69108467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910782093.0A Active CN110688446B (zh) 2019-08-23 2019-08-23 一种句义数学空间表示方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN110688446B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108710904A (zh) * 2018-05-10 2018-10-26 上海交通大学 基于递归神经网络的图像匹配方法及系统
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109388797A (zh) * 2017-08-14 2019-02-26 三星电子株式会社 用于确定句子的领域的方法和设备及训练方法和训练设备
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN109388797A (zh) * 2017-08-14 2019-02-26 三星电子株式会社 用于确定句子的领域的方法和设备及训练方法和训练设备
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108710904A (zh) * 2018-05-10 2018-10-26 上海交通大学 基于递归神经网络的图像匹配方法及系统
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GADI PINKAS: ""Propositional non-monotonic reasoning and inconsistency in symmetric neural network"", 《IJCAI91:PROCEEDINGS OF THE 12TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
姜华等: ""一种双向长短时记忆循环神经网络的问句语义关系识别方法"", 《福州大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN110688446B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
JP2013519138A (ja) アイテム関連付けのための結合埋込
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
Vysotska et al. Development of Information System for Textual Content Categorizing Based on Ontology.
CN111709243A (zh) 一种基于深度学习的知识抽取方法与装置
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
JP5881048B2 (ja) 情報処理システム、及び、情報処理方法
CN114450681A (zh) 文档间注意力机制
CN110457484B (zh) 一种基于图的逻辑表达方法、系统、介质和设备
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
Köksal et al. Improving automated Turkish text classification with learning‐based algorithms
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Kannadasan et al. Personalized query auto-completion through a lightweight representation of the user context
Menon et al. Gmm-based document clustering of knowledge graph embeddings
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN112182144A (zh) 搜索词标准化方法、计算设备和计算机可读存储介质
Rao et al. An approach to clustering of text documents using graph mining techniques
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
Gupta et al. Songs recommendation using context-based semantic similarity between lyrics
CN110688446B (zh) 一种句义数学空间表示方法、系统、介质和设备
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
CN113111178B (zh) 无监督的基于表示学习的同名作者消歧方法及装置
Yan et al. Improving document clustering for short texts by long documents via a dirichlet multinomial allocation model
CN110457455B (zh) 一种三值逻辑问答咨询优化方法、系统、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant