CN103914445A - 数据语义处理方法 - Google Patents

数据语义处理方法 Download PDF

Info

Publication number
CN103914445A
CN103914445A CN201410079684.9A CN201410079684A CN103914445A CN 103914445 A CN103914445 A CN 103914445A CN 201410079684 A CN201410079684 A CN 201410079684A CN 103914445 A CN103914445 A CN 103914445A
Authority
CN
China
Prior art keywords
statement
theme
word
value
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410079684.9A
Other languages
English (en)
Inventor
李颖
张全
孙岩
袁毅
王青海
何国良
吴迪
韦向峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Armored Forces Engineering of PLA
Original Assignee
Academy of Armored Forces Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Armored Forces Engineering of PLA filed Critical Academy of Armored Forces Engineering of PLA
Priority to CN201410079684.9A priority Critical patent/CN103914445A/zh
Publication of CN103914445A publication Critical patent/CN103914445A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种数据语义处理方法,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。该方法包括:将获取的文本分割为语句,并对分割得到的语句进行编号;根据分割得到的语建立LDA模型;应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布;计算语句的主题隶属度值;根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。

Description

数据语义处理方法
技术领域
本发明涉及语句处理领域,尤其涉及一种数据语义处理方法。
背景技术
军事模拟训练具有多方面的特殊优势,是军事现代化的重要标志之一,各国军方已经重点研究和发展。随着军事模拟训练技术的发展,各种装备的智能化水平不断提升。语义的表达、分析和处理作为军事模拟训练智能化处理的基础也越来越受到重视。如何对于军事模拟训练涉及的语义进行提取、表达、分析和处理则是各种军事模拟训练智能化的基础。鉴于人在各种军事模拟训练中的重要作用,这里特别需要侧重人机交互的语义分析理解处理。特别是在模拟训练中的虚拟部分需要对文本语义内容作出智能化的反映,从而提升军事模拟训练的效能。
在传统的实兵训练中,参加训练的人员根据训练命令进行组织和实施。通过各级指挥员和参训人员对于命令的理解,利用各种高效的传输模式进行通讯交流指挥实施。而在军事模拟训练中需要利用计算形成模拟虚兵,为了使虚兵在军事模拟训练中能够智能化模拟实兵对于各种训练任务的理解,并作出适当的反应,完成人机虚实交互,需要将相应的作战文书转换成对应的命令结构格式,进行通讯交流。这里需要将自然语言文本文字内容中包含的作战指挥关键信息进行抽取和重组。实现这一抽取和重组最准确的方法是组织人类专家进行手工转换,完成这一信息处理过程。
显然这种模式无法适应虚实结合的训练演习需要,因此如何自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理,是当前需要解决的技术问题。
发明内容
(一)要解决的技术问题
本发明提供一种数据语义处理方法,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。
(二)技术方案
一种数据语义处理方法,包括:
将获取的文本分割为语句,并对分割得到的语句进行编号;
根据分割得到的语建立LDA模型;
应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布;
计算语句的主题隶属度值;
根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。
可选的,所述根据分割得到的语建立LDA模型之前还包括:输入潜在狄利克雷分配LDA模型的数据;具体地:
对语句进行词语切分,应用军语词典和通用词典对分词进行处理,如果遇到军语词典和通用词典的切分歧义,军语词典优先;两类词典中都包括非汉语词汇;
对于切分结果过滤掉固定停用词,固定停用词为汉语单字词;
对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计;
过滤掉文本集合中的动态停用词,将文档频次低于预设次数的词语设定为动态停用词。
可选的,所述计算语句的主题隶属度值之前还包括:LDA模型参数设置;具体地:
对超参数α和β的各个分量统一取值,采用对称的Dirichlet参数,并根据主题数目取α=5/K,所有的β取固定的经验值β=0.01;
确定混乱度,混乱度的计算方法是计算文档集中所包含的各句群的似然值,似然值的几何均值的倒数作为混乱度;
LDA处理模型混乱度随着句群似然值的增加而单调递减;具体计算公式如下:
Perplexity ( D ) = exp { - Σ s = 1 N log p ( S ) Σ s = 1 N N s }
上式中N为文档集中句群的个数,Ns为句群S中词项的个数,p(S)为句群S中的似然值;
句群的似然值由句群的主题分布和主题的词汇分布得出,具体计算如下:
log p ( S ) = Σ n = 1 N n ( w , S ) · φ ^ w ( z = j ) · θ ^ z = j ( s )
式中n(w,S)为句群S中词w出现的次数;
利用待处理的真实语料进行实验和人工分析,选择生成的主题对应的主题数。
可选的,所述将获取的文本分割为语句包括:
获取预存的文本;
去掉文本内容中的非连续语句后,进行文本分割,并控制切分得到的语句的字数。
可选的,所述根据分割得到的语建立LDA模型包括:
在LDA模型中,将语句集合表示为由M个语句构成,记作D={d1,…,dM},其中语句dm是长度为(N)的词语序列,可以写成w=(w1,…,w(N)),其中wn表示序列中的第n个词语。
可选的,所述应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布包括:
在任一语句m中,对于给定的词语wn,利用Gibbs抽样取得词语在主题z上的后验概率P(wn|z)估计值;在其他词语上的主题分配(z‐n)确定的情况下,估计该当前词语wn分配主题j的概率p(zn=j);边缘化φk和θm,间接求得φk和θm的值。
可选的,还包括:
利用Gibbs抽样方法估计LDA模型中的参数,为词语特征在[1…K]主题中随机分配一个主题,构成初始的Markov链,对于文本中的所有词语特征根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态;
抽样算法估计每个词语与主题z的φ和θ的值,公式如下:
φ ^ w n ( z = j ) = C w - n , j VK + β w n , j Σ v = 1 V ( C v - n , j VK + β v , j )
θ ^ z = j ( m ) = C m - n , j MK + α m , j Σ k = 1 K ( C m - n , j MK + α m , k )
式中值为从主题j中抽取新词记号wn的概率估计,而为在文档wm从主题j抽取新词的概率估计。
可选的,所述计算语句的主题隶属度值包括:
利用Gibbs抽样算法进行参数估计,得到语句在主题上的分布以及主题在词汇上的分布用这两个分布,可以形成计算语句类别属性的计算方法;
对于任一类别集C中任一语句S的隶属度表示为P(S|C),根据贝叶斯公式,P(S|C)示为:
P ( S | C ) = P ( C | S ) · P ( S ) P ( C )
其中P(C|S)为语句的生成概率,即类别集C由句子S生成的似然概率;P(S)为句子S隶属度的先验概率;P(C)为类别集C的先验概率,将类别集C对应的语句集中的词语作为输入观察序列,则语句由预测类别集的分布构成,将句子看作类别集的生成模型,类别集的概率P(C)对所有语句都一样,不影响语句的排序,在计算语句分值时将其忽略;同时如果假设语句的先验概率相同,则语句对于类别的隶属度排序分值,只与所属的语句生成概率相关。
基于上述技术方案,本发明实施例将采用潜在狄利克雷分配(LDA)模型进行语义分析,给出实现自由文本转换格式命令的数据语义处理方法,这一方法将具有基于数据驱动的特征,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理模式
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据语义处理方法的流程示意图;
图2为本发明实施例提供的一种LDA模型结构示意图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图对本发明的具体实施方式作进一步详细描述。以下用于说明本发明,但不用来限制本发明的范围。
本发明提供一种基于语义信息的面向自由文本转换格式命令的语句自动分类处理模式方法,提高自由文本转换格式命令数据处理的效率,时避免关键词激活方式所带来的困扰,是实现高智能化的关键信息抽取和重组方法的关键和基础。
本发明实施例的流程示意图如图1所示,本发明实施例的数据语义处理方法包括如下步骤:
1.文档的规整化处理。
对于以电子文本格式保存的文本,如果具有版式信息,首先提取文档内容,去掉标题、时间等结构化信息和版式信息;如果是不具有版式信息的纯文本文件,则直接进入下面的步骤。
去掉文本内容中的非连续语句内容,如表格,注释等内容。将文档集合中的文本,按照自然分隔符号,如标点符号,分割为语句。
控制切分得到的语句字数:如果切分得到的语句字数少于5字,则进行归并。如果是自然段中间的句子,既可以和前面的句子合并,也可以和后面的句子合并;对于自然段首的句子只能与后面的句子合并,自然段尾的句子只能和前面的句子合并。如果不能按上述方式合并,或者最终合并结果仍然少于5个字,则直接去掉这个自然段。语句字数不设上限。
为语句设置相应的统一的标识编号。
2.准备输入潜在狄利克雷分配(LDA)模型的数据。
以1形成的语句集合中的每个语句为数据准备的单元。
对语句进行词语切分。在分词处理过程中使用的词典由两个部分组成,即军语词典和通用词典。通用词典的规模不小于4万词,词语选择以词频为依据;军语词典的规模不小于5千。在实际切分处理中,如果遇到军语词典和通用词典的切分歧义,军语词典优先。两类词典中都可以包括字母词和英文词汇等非汉语词汇。
对于切分结果过滤掉固定停用词。本发明中选择所有的汉语单字词为固定停用词。
对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计。
过滤掉文本集合中的动态停用词。本发明中将文档频次低于3的词语设定为动态停用词。
3.为语句集合建立一个LDA模型。
在LDA模型中,将语句集合表示为由M个语句构成,记作D={d1,…,dM},其中语句dm是长度为(N)的词语序列,可以写成w=(w1,…,w(N)),其中wn表示序列中的第n个词语。
图2给出了LDA模型的构成,这里外层的框表示一个文本,内层的框表示主题和词语的混合选择:α和β是模型的先验参数;K表示形成的主题个数。
LDA模型的出发点是将各文档表示为K个潜在主题的混合。主题本身是在文本中显式出现,用词汇上的概率分布来捕捉,它的生成过程如下:
1)从Dirichlet分布先验β中为每个主题抽取多项式分布φk,共抽取K个分布。
2)从Dirichlet分布先验α中为每个文档抽取多项式分布θm,共抽取M个分布。
3)对语句集合中的每个文本和文本中的词汇:
a)从多项式分布θm中抽取主题zm;
b)从多项式分布φk中抽取词语wn;
Dirichlet分布为一族连续的多元概率分布,以数学家LejeuneDirichlet的名字命名,表示为:
Dir ( μ | α ) = Γ ( Σ k = 1 K α k ) Π k = 1 K Γ ( α k ) Π k = 1 K μ k α k - 1
其中α=(α1…αK)T为Dirichlet的分布参数。Γ(x)为伽玛函数,定义为 Γ ( x ) = ∫ 0 ∞ u x - 1 e - u du .
模型中最重要的变量是主题‐词语分布φk和文档‐主题分布θm。对于这两个参数可以直接使用极大似然法估计,但是这样存在局部极值问题。因此采用Gibbs方法求取。
4.使用Gibbs算法求解获得语句的主题分布和主题的词汇分布。
具体为在语句m中,对于给定的词语wn,首先利用Gibbs抽样取得词语在主题z上的后验概率P(wn|z)估计值;在其他词语上的主题分配(z‐n)确定的情况下,估计该当前词语wn分配主题j的概率p(zn=j);然后边缘化φk和θm,间接求得φk和θm的值。下式是具体的说明。
P ( z n = j | z - n , w m , n , α , β ) = C w - n , j VK + β w n , j Σ v = 1 V ( C v - n , j VK + β v , j ) × C m - n , j MK + α m , j Σ k = 1 K ( C m - n , k MK + α m , k ) Σ j = 1 T C w - n , j VK + β w n , j Σ v = 1 V ( C v - n , j VK + β v , j ) × C m - n , j MK + α m , j Σ v = 1 V ( C m - n , j MK + α m , k )
其中CVK和CMK分别为维数为V×K和M×K的数量矩阵,V为词语个数。为词语w分配给主题j的频次,其中不包含当前记号实例n;为语句dm中分配给主题j的词语个数,其中不包含当前实例n。wn表示一个特征词语。一旦词语特征分配给了主题j,就增加了给任何特定的特征分配主题j的概率;同样,若主题j在一个文本中使用了多次,则该文本的任意词语分配主题j的概率也将增加。
利用Gibbs抽样方法估计LDA模型中的参数,首先为词语特征在[1…K]主题中随机分配一个主题,构成初始的Markov链,然后对于文本中的所有词语特征根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态。
抽样算法估计每个词语与主题z的φ和θ的值,公式如下:
φ ^ w n ( z = j ) = C w - n , j VK + β w n , j Σ v = 1 V ( C v - n , j VK + β v , j )
θ ^ z = j ( m ) = C m - n , j MK + α m , j Σ k = 1 K ( C m - n , j MK + α m , k )
式中值为从主题j中抽取新词记号wn的概率估计,而为在文档wm从主题j抽取新词的概率估计。
5.LDA模型参数设置
主题数K的设置对LDA模型处理性能影响较大,需要根据语料合理设置。
超参数α和β分别是随机变量θ和参数φ在Dirichlet分布上的先验概率假设,因此在对K值进行设置之前,首先需要选择相应的超参数α和β。本发明对超参数α和β的各个分量统一取值,即采用对称的Dirichlet参数,并根据主题数目取α=5/K,所有的β取固定的经验值β=0.01。
分类主题数K采用模型混乱度分析方法进行估计,在一定意义上保证K值具有优越性。
混乱度的计算方法是计算文档集中所包含的各句群的似然值(Likelihood),进而取它的几何均值的倒数。LDA处理模型混乱度随着句群似然值的增加而单调递减。具体计算公式如下:
Perplexity ( D ) = exp { - Σ s = 1 N log p ( S ) Σ s = 1 N N s }
上式中N为文档集中句群的个数,Ns为句群S中词项的个数,p(S)为句群S中的似然值。这里采用的LDA模型,因而句群的似然值由句群的主题分布和主题的词汇分布给出,具体计算如下:
log p ( S ) = Σ n = 1 N n ( w , S ) · φ ^ w ( z = j ) · θ ^ z = j ( s )
式中n(w,S)为句群S中词w出现的次数。
可以得到混乱度随主题数变化的曲线,选择混乱度较低的主题数作为候选,进一步利用待处理的真实语料进行实验和人工分析,选择生成的主题具有比较好解释对应的主题数。
6.计算语句的主题隶属度。
利用Gibbs抽样算法进行参数估计,得到语句在主题上的分布以及主题在词汇上的分布再利用这两个分布,可以形成计算语句类别属性的计算方法。
对于类别集C,语句S的隶属度可以表示成P(S|C),即给定类别集C时语句S的后验概率。根据贝叶斯公式,P(S|C)可表示为:
P ( S | C ) = P ( C | S ) · P ( S ) P ( C )
其中P(C|S)为语句的生成概率,即类别集C由句子S生成的似然概率;P(S)为句子S隶属度的先验概率;P(C)为类别集C的先验概率。将类别集C对应的语句集中的词语作为输入观察序列,则语句由预测类别集的分布构成,因此可以将句子看作类别集的生成模型。类别集的概率P(C)对所有语句都一样,不影响语句的排序,在计算语句分值时将其忽略。同时如果假设语句的先验概率相同,则语句对于类别的隶属度排序分值,只与所属的语句生成概率相关。因此可以根据语句的生成概率P(C|S)对文档中的语句类别进行判定。
7.根据语句的最终的隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出,提供后继处理使用。
本发明使用LDA主题模型作为分类处理的语义分析模型,对语句进行建模处理,语句在模型中表示为主题上的概率分布。而LDA模型最终形成的类别是按照数据驱动、根据数据的情况形成的、具有统计学意义的类别,因此语句经过潜在主题的混合之后选取一个或少数几个类别输出,完成语句自动分类处理。
本发明实施例将采用潜在狄利克雷分配(LDA)模型进行语义分析,给出实现自由文本转换格式命令的数据语义处理方法,这一方法将具有基于数据驱动的特征,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种数据语义处理方法,其特征在于,包括:
将获取的文本分割为语句,并对分割得到的语句进行编号;
根据分割得到的语建立LDA模型;
应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布;
计算语句的主题隶属度值;
根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。
2.根据权利要求1所述的方法,其特征在于,所述根据分割得到的语建立LDA模型之前还包括:输入潜在狄利克雷分配LDA模型的数据;具体地:
对语句进行词语切分,应用军语词典和通用词典对分词进行处理,如果遇到军语词典和通用词典的切分歧义,军语词典优先;两类词典中都包括非汉语词汇;
对于切分结果过滤掉固定停用词,固定停用词为汉语单字词;
对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计;
过滤掉文本集合中的动态停用词,将文档频次低于预设次数的词语设定为动态停用词。
3.根据权利要求1所述的方法,其特征在于,所述计算语句的主题隶属度值之前还包括:LDA模型参数设置;具体地:
对超参数α和β的各个分量统一取值,采用对称的Dirichlet参数,并根据主题数目取α=5/K,所有的β取固定的经验值β=0.01;
确定混乱度,混乱度的计算方法是计算文档集中所包含的各句群的似然值,似然值的几何均值的倒数作为混乱度;
LDA处理模型混乱度随着句群似然值的增加而单调递减;具体计算公式如下:
Perplexity ( D ) = exp { - Σ s = 1 N log p ( S ) Σ s = 1 N N s }
上式中N为文档集中句群的个数,Ns为句群S中词项的个数,p(S)为句群S中的似然值;
句群的似然值由句群的主题分布和主题的词汇分布得出,具体计算如下:
log p ( S ) = Σ n = 1 N n ( w , S ) · φ ^ w ( z = j ) · θ ^ z = j ( s )
式中n(w,S)为句群S中词w出现的次数;
利用待处理的真实语料进行实验和人工分析,选择生成的主题对应的主题数。
4.根据权利要求1所述的方法,其特征在于,所述将获取的文本分割为语句包括:
获取预存的文本;
去掉文本内容中的非连续语句后,进行文本分割,并控制切分得到的语句的字数。
5.根据权利要求1所述的方法,其特征在于,所述根据分割得到的语建立LDA模型包括:
在LDA模型中,将语句集合表示为由M个语句构成,记作D={d1,…,dM},其中语句dm是长度为(N)的词语序列,可以写成w=(w1,…,w(N)),其中wn表示序列中的第n个词语。
6.根据权利要求1所述的方法,其特征在于,所述应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布包括:
在任一语句m中,对于给定的词语wn,利用Gibbs抽样取得词语在主题z上的后验概率P(wn|z)估计值;在其他词语上的主题分配(z‐n)确定的情况下,估计该当前词语wn分配主题j的概率p(zn=j);边缘化φk和θm,间接求得φk和θm的值。
7.根据权利要求6所述的方法,其特征在于,还包括:
利用Gibbs抽样方法估计LDA模型中的参数,为词语特征在[1…K]主题中随机分配一个主题,构成初始的Markov链,对于文本中的所有词语特征根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态;
抽样算法估计每个词语与主题z的φ和θ的值,公式如下:
φ ^ w n ( z = j ) = C w - n , j VK + β w n , j Σ v = 1 V ( C v - n , j VK + β v , j )
θ ^ z = j ( m ) = C m - n , j MK + α m , j Σ k = 1 K ( C m - n , j MK + α m , k )
式中值为从主题j中抽取新词记号wn的概率估计,而为在文档wm从主题j抽取新词的概率估计。
8.根据权利要求1所述的方法,其特征在于,所述计算语句的主题隶属度值包括:
利用Gibbs抽样算法进行参数估计,得到语句在主题上的分布以及主题在词汇上的分布用这两个分布,可以形成计算语句类别属性的计算方法;
对于任一类别集C中任一语句S的隶属度表示为P(S|C),根据贝叶斯公式,P(S|C)示为:
P ( S | C ) = P ( C | S ) · P ( S ) P ( C )
其中P(C|S)为语句的生成概率,即类别集C由句子S生成的似然概率;P(S)为句子S隶属度的先验概率;P(C)为类别集C的先验概率,将类别集C对应的语句集中的词语作为输入观察序列,则语句由预测类别集的分布构成,将句子看作类别集的生成模型,类别集的概率P(C)对所有语句都一样,不影响语句的排序,在计算语句分值时将其忽略;同时如果假设语句的先验概率相同,则语句对于类别的隶属度排序分值,只与所属的语句生成概率相关。
CN201410079684.9A 2014-03-05 2014-03-05 数据语义处理方法 Pending CN103914445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410079684.9A CN103914445A (zh) 2014-03-05 2014-03-05 数据语义处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410079684.9A CN103914445A (zh) 2014-03-05 2014-03-05 数据语义处理方法

Publications (1)

Publication Number Publication Date
CN103914445A true CN103914445A (zh) 2014-07-09

Family

ID=51040139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410079684.9A Pending CN103914445A (zh) 2014-03-05 2014-03-05 数据语义处理方法

Country Status (1)

Country Link
CN (1) CN103914445A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317809A (zh) * 2014-09-24 2015-01-28 中国人民解放军装甲兵工程学院 一种指挥信息系统与作战仿真系统数据交互转换器
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106503044A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 兴趣特征分布获取方法及装置
WO2017091985A1 (zh) * 2015-12-01 2017-06-08 华为技术有限公司 停用词识别方法与装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN107609006A (zh) * 2017-07-24 2018-01-19 华中师范大学 一种基于地方志研究的搜索优化方法
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN108228541A (zh) * 2016-12-22 2018-06-29 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108694176A (zh) * 2017-04-06 2018-10-23 北京京东尚科信息技术有限公司 文档情感分析的方法、装置、电子设备和可读存储介质
CN109684480A (zh) * 2018-12-30 2019-04-26 杭州翼兔网络科技有限公司 一种基于行业的聚类方法
CN112487185A (zh) * 2020-11-27 2021-03-12 国家电网有限公司客户服务中心 一种电力客户领域的数据分类方法
CN113032573A (zh) * 2021-04-30 2021-06-25 《中国学术期刊(光盘版)》电子杂志社有限公司 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN113674297A (zh) * 2021-08-11 2021-11-19 山东大学 基于信息混乱度度量的语义边缘检测方法及系统
CN114956290A (zh) * 2022-07-27 2022-08-30 江苏赛沐思环保科技有限公司 一种基于lz77编码的工业废水的智能处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张冬梅: "文本情感分类及观点摘要关键问题研究", 《中国博士学位论文全文数据库 信息科技辑》 *
顾晓明, 翟玉庆: "一种基于本体的军用文书理解系统设计", 《现代计算机》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317809A (zh) * 2014-09-24 2015-01-28 中国人民解放军装甲兵工程学院 一种指挥信息系统与作战仿真系统数据交互转换器
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN105139211B (zh) * 2014-12-19 2021-06-22 Tcl科技集团股份有限公司 产品简介生成方法及系统
WO2017091985A1 (zh) * 2015-12-01 2017-06-08 华为技术有限公司 停用词识别方法与装置
US10019492B2 (en) 2015-12-01 2018-07-10 Huawei Technologies Co., Ltd. Stop word identification method and apparatus
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN105488033B (zh) * 2016-01-26 2018-01-02 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106503044A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 兴趣特征分布获取方法及装置
CN106503044B (zh) * 2016-09-21 2020-02-28 北京小米移动软件有限公司 兴趣特征分布获取方法及装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN108228541B (zh) * 2016-12-22 2021-08-03 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108228541A (zh) * 2016-12-22 2018-06-29 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108694176A (zh) * 2017-04-06 2018-10-23 北京京东尚科信息技术有限公司 文档情感分析的方法、装置、电子设备和可读存储介质
CN108694176B (zh) * 2017-04-06 2021-05-25 北京京东尚科信息技术有限公司 文档情感分析的方法、装置、电子设备和可读存储介质
CN107609006B (zh) * 2017-07-24 2021-01-29 华中师范大学 一种基于地方志研究的搜索优化方法
CN107609006A (zh) * 2017-07-24 2018-01-19 华中师范大学 一种基于地方志研究的搜索优化方法
CN107590130B (zh) * 2017-09-30 2019-06-14 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN109684480B (zh) * 2018-12-30 2021-01-05 北京人民在线网络有限公司 一种基于行业的聚类方法
CN109684480A (zh) * 2018-12-30 2019-04-26 杭州翼兔网络科技有限公司 一种基于行业的聚类方法
CN112487185A (zh) * 2020-11-27 2021-03-12 国家电网有限公司客户服务中心 一种电力客户领域的数据分类方法
CN112487185B (zh) * 2020-11-27 2022-12-30 国家电网有限公司客户服务中心 一种电力客户领域的数据分类方法
CN113032573A (zh) * 2021-04-30 2021-06-25 《中国学术期刊(光盘版)》电子杂志社有限公司 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN113032573B (zh) * 2021-04-30 2024-01-23 同方知网数字出版技术股份有限公司 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN113674297A (zh) * 2021-08-11 2021-11-19 山东大学 基于信息混乱度度量的语义边缘检测方法及系统
CN113674297B (zh) * 2021-08-11 2022-07-05 山东大学 基于信息混乱度度量的语义边缘检测方法及系统
CN114956290A (zh) * 2022-07-27 2022-08-30 江苏赛沐思环保科技有限公司 一种基于lz77编码的工业废水的智能处理方法
CN114956290B (zh) * 2022-07-27 2022-11-01 江苏赛沐思环保科技有限公司 一种基于lz77编码的工业废水的智能处理方法

Similar Documents

Publication Publication Date Title
CN103914445A (zh) 数据语义处理方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN103699525B (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN103176963B (zh) 基于crf++汉语句义结构模型自动标注方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN105786991A (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN105320642A (zh) 一种基于概念语义基元的文摘自动生成方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN105740236A (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN105608075A (zh) 一种相关知识点的获取方法及系统
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
CN103116573B (zh) 一种基于词汇注释的领域词典自动扩充方法
CN106126505A (zh) 平行短语学习方法及装置
CN108228568A (zh) 一种数学题目语义理解方法
CN104504087A (zh) 一种基于低秩分解的精细主题挖掘方法
CN108733675A (zh) 基于大量样本数据的情感评价方法及装置
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
Pandey et al. Sentiment analysis using lexicon based approach
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
CN105573985A (zh) 基于汉语句义结构模型和主题模型的句子表示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140709

RJ01 Rejection of invention patent application after publication