CN110110326B - 一种基于主题信息的文本切割方法 - Google Patents

一种基于主题信息的文本切割方法 Download PDF

Info

Publication number
CN110110326B
CN110110326B CN201910339645.0A CN201910339645A CN110110326B CN 110110326 B CN110110326 B CN 110110326B CN 201910339645 A CN201910339645 A CN 201910339645A CN 110110326 B CN110110326 B CN 110110326B
Authority
CN
China
Prior art keywords
sentence
label
text
sentences
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910339645.0A
Other languages
English (en)
Other versions
CN110110326A (zh
Inventor
魏笔凡
李鸿轩
刘均
郑庆华
吴蓓
张铎
吴科炜
郭朝彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910339645.0A priority Critical patent/CN110110326B/zh
Publication of CN110110326A publication Critical patent/CN110110326A/zh
Application granted granted Critical
Publication of CN110110326B publication Critical patent/CN110110326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题信息的文本切割方法,具体操作如下:对输入文本以及训练集进行预处理,获得一系列单词组成的句子;然后进行特征提取,得到其特征向量;再根据其蕴含的语义信息对输入文本进行聚类操作,得到一系列句子簇,并为每个簇按顺序分配一个数字标签,得到一系列带有数字标签的单句;为每一个句子分配一个训练集中已有的主题标签,使得训练集中已有的主题标签分配至文本中的所有句子;利用数字标签标注结果和主题标签标注结果,进行修正,得到带主题标签的文本片段,将主题标签分配到切割后的文本上,使句子描述的主题都清晰可见,可以方便的根据主题定位到文本中描述该主题的位置,使得检索更为方便。

Description

一种基于主题信息的文本切割方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于主题信息的文本切割方法。
背景技术
文本通常由一系列存在语义相关的片段构成。随着当今网络规模的急剧增长,网络上的文本数量也在急剧的增加。网络文本中,篇幅较长的文本占有相当一部分比例。这些文本大部分都没有经过细致的划分,仅仅是一系列存在语义相关关系的片段堆叠。这既不方便于人们的阅读,也不方便于自然语言处理和信息检索领域等的研究者进行研究。
为了解决上述问题,通常文本进行切割。对于浏览者而言,切割之后得到了与单个主题相关的片段,使得文本阅读起来更为简洁明了,并且可以更加快速直观地浏览到所需要特定主题相关的文本内容。对研究者而言,切割之后得到的单一主题的内容可以方便进行后续的研究,如在信息检索领域,当长文本被切割为单个主题的片段之后,便可以通过主题初步的对要搜寻的信息进行检索,进而加快信息检索效率。因此,研究文本的主题切割对普通浏览者与研究者而言,都具有重要的意义。
现有技术中有一种基于文本相似度的事件情感分类方法,专利申请号:CN201810642911;该专利提出了一种基于文本相似度的事件情感分析方法,首先计算出事件event情感值,获得单个文本情感分类模型,然后根据余弦相似度、文本情感倾向等判断事件情感分类,从而分析出情感的种类。具体包括:设整个待处理事件的情感值为S,设情感分界值分别为S1、S2;选取并生成单文本情感分类模型model,情感类别为正面、中立、负面;根据余弦相似度将文本聚类,聚合成不同的事件类;设置事件的分割参数limit-num,用来控制事件中的文本切割参数;针对每一个事件类event,按照声量值选择文本,然后判断分析;将事件类中所有文本向量进行均值运算,生成该类的均值向量,将均值向量输入到应用模型model中,输出均值向量情感值p_avg;事件内部存在情感倾向的文本,计算情感值;利用情感分类模型对事件情感值进行计算(综合w1,w2),其中,w1+w2=1;判断事件情感分类s=p(event),若s≥s2,则事件为正向;若s1<s<s2,则事件为中立;若s≤s1,则事件为负向。
上述文本相似度的事件情感分类方法专利技术方案中,仅仅对文本中蕴含的情绪进行了分析,并以此为基础对文本进行切割和判断。而对于描述了不同主题下内容的文本,并不能按照其描述的内容分隔开。
发明内容
本发明的目的在于提供一种基于主题信息的文本切割方法,通过kmeans聚类和SVM分类将文本切割问题转化为一个“预处理-聚类-分类-综合修正”的过程;使用WR算法将句子简便的表示为一个向量,使用主成分分析算法将句子向量表示的更为精炼,再通过传统的聚类分类方法,快速准确的对文本进行切割和分配主题标签,本发明通过结合分类的方法,可以很好的将文本按照其描述的内容分割开来。
为了实现上述目的,本发明采用的技术方案是,
一种基于主题信息的文本切割方法,包括以下步骤:
步骤1,对输入文本及训练集进行预处理,获得一系列单词组成的句子,具体包括:
步骤101,对于输入文本,将其按照句子结尾标点符号进行划分,获得一系列单独的句子,每个句子单独占一行;所述句子结尾标点符号包括所有可以用于中文单句结尾处的标点符号;对于训练集,其格式为句子-主题标签,其中句子和主题标签均为中文文本;将其中的句子部分进行上述操作;
步骤102,对步骤101所得单独的句子进行分词,并去除数字、停用词、标点符号以及所有非中文字符,获得一系列单词组成的句子,所述句子的格式为:每一行为一系列单词,单词之间使用空格隔开;
步骤2,对步骤1所得的所有句子进行特征提取,得到每个句子的句向量,具体包括:
S201,使用连续词袋模型(CBOW)将文本中出现的每一个单词转化为一个100维的词向量;
S202,根据S201得到的词向量,使用WR方法对句子进行建模:首先根据词频对单个句子中的每个词向量赋予一定的权重,该权重由人工设置;通过如下公式:
Figure GDA0002533148380000031
得到一个初始句向量;其中vs为初始句向量,s为句子集合中的某个句子,w为该句子中出现的某个单词,a为人工设置的权重参数,p(w)为单词w在所有句子中出现的频率,vw表示单词w的词向量。
S203,对输入文本中的每个句子,循环执行S202,得到一个行数为句子个数,列数为100的初始句向量矩阵。
S204,对S203中得到的初始句向量矩阵,将其进行转置,并进行矩阵奇异值分解,使得句子中无关的特征被移除。分解之后得到三个矩阵,取出第一个矩阵,并记为u。
S205,对输入文本中的某个句子s,根据S202中得到的初始句向量vs以及S204中得到的矩阵u,进行如下操作:
vs=vs-uuTvs
其中,uT表示矩阵u的转置,该步骤得到的等号左侧的vs即为句子s的最终句向量。
S206,对输入文本中的每个句子,执行S205,得到每一个句子所对应的最终句向量。
步骤3,利用步骤2所得最终句向量,根据其蕴含的主题信息对文本进行标注,
首先使用主成分分析法对句向量进行特征提取,使得句向量从100维映射到较低维度,并得到降维之后的句向量,接下来使用kmeans算法对降维后的句向量进行聚类,得到若干个簇,对所述簇依次进行编号,并分别将簇对应的句子打上与所述簇相同的标号,得到一系列带有数字标签的单句;
步骤4,利用训练集训练一个SVM分类器,接下来利用这个SVM分类器对降维后的句向量进行分类,为每一个句子分配一个训练集中已有的主题标签,得到一系列带有主题标签的单句;
步骤5,利用数字标签标注结果和主题标签标注结果,综合进行修正,具体包括:
501,将SVM分类结果与kmeans聚类结果按顺序进行一一配对,对于kmeans聚类结果中的每个数字标签,统计其对应的SVM主题标签及每个主题标签的个数,并将数字标签和与其对应的出现最多次数的主题标签进行对应,构成一个查询字典;如果存在某两个数字标签下出现次数最多的主题标签相同的情况,则暂时不将这两个数字标签与主题标签进行对应,等到其他的主题标签与数字标签对应完成后,再根据空缺的标号与空缺的主题标签进行对应;
502,将SVM中的主题标签按照步骤501所得查询字典进行映射,映射结果为一个标号集合,对所述标号集合与kmeans聚类结果得到的标号集合进行异或操作,得到一个0-1向量;
503,根据步骤502所得0-1向量对SVM得到的主题标签进行修正:对于异或得到的结果中的所有的1,对其左侧句子和右侧句子分别进行分析,如果两边的结果均为0,且标签一致,则将对于异或操作得到结果为1位置处更正为与其左右句子的标签一致;如果两侧结果均为0,但标签不同,则对于异或操作得到结果为1位置处的句子单独属于一个类;如果两侧有一个1,则以0一侧的标签为准进行修正;如果两侧均为1,则不进行任何操作;循环执行503,直至结果不再发生变动,得到稳态结果。
504,根据503得到的稳态结果,每一个句子都被分配了一个单独的数字标签(并对应着一个主题标签),并且每一个主题标签只会在相邻的几个句子之间出现(即不会出现:句子s1属于主题标签A,其相邻的句子s2,s3属于主题标签B,其后出现的句子又属于主题标签A的情况);根据句子主题标签发生改变的边界,对文本进行切割,即可得到带主题标签的文本片段。
与现有技术相比,本发明至少具有以下有益的技术效果:
本发明利用了文本的主题信息,实现了将文本根据主题信息所进行的切割;将聚类和分类方法进行巧妙的结合,利用传统的机器学习算法,可以方便快速的将文本按照其主题分割开;利用训练集训练分类器,将主题标签分配到切割后的文本上,使得每一个句子描述的主题都清晰可见,而不是只获得文本的情绪倾向;利用最终分割后的结果,可以方便的根据主题定位到文本中描述该主题的位置,使得检索更为方便。
附图说明
图1是本发明的流程图。
图2是文本切割过程的示例图。
图3是针对图2进行主题标注的示例图。
具体实施方式
以下结合附图及实例对本发明作进一步的说明。
如图1所示,一种基于主题信息的文本切割方法可以分为如下五个过程:
步骤1,对输入文本以及训练集进行预处理,获得一系列单词组成的句子;包括两个步骤。
101,对于输入文本,将其按照结尾标点符号进行划分,所述结尾标点符号指所有可用于中文句子结尾的符号;获得一系列单独的句子,每个句子单独占一行,对于训练集,其格式为:句子-主题标签,其中句子和主题标签均为中文文本。将其中的句子部分进行上述操作。
102,对单独的句子进行分词,并去除数字,停用词,标点符号以及非中文特殊符号。获得一系列单词组成的句子。格式为:每一行为一系列单词,单词之间使用空格隔开;
步骤2,对句子进行特征提取,得到每个句子的句向量,包括两个步骤:
S201,结合文本的语义主题特征,使用连续词袋模型(CBOW)将文本中出现的每一个单词转化为一个100维的词向量;
S202,根据S201得到的词向量,使用WR方法对句子进行建模:首先根据词频对单个句子中的每个词向量赋予一定的权重,该权重由人工设置;通过如下公式:
Figure GDA0002533148380000061
得到一个初始句向量;其中vs为初始句向量,s为句子集合中的某个句子,w为该句子中出现的某个单词,a为人工设置的权重参数,p(w)为单词w在所有句子中出现的频率,vw表示单词w的词向量。
S203,对输入文本中的每个句子,循环执行S202,得到一个行数为句子个数,列数为100的初始句向量矩阵。
S204,对S203中得到的初始句向量矩阵,将其进行转置,并进行矩阵奇异值分解,使得句子中无关的特征被移除。分解之后得到三个矩阵,取出第一个矩阵,并记为u。
S205,对输入文本中的某个句子s,根据S202中得到的初始句向量vs以及204中得到的矩阵u,进行如下操作:vs=vs-uuTvs其中,uT表示矩阵u的转置,该步骤得到的等号左侧的vs即为句子s的最终句向量。
S206,对输入文本中的每个句子,执行S205,得到每一个句子所对应的最终句向量。
步骤3,利用步骤2获得的特征向量,根据其蕴含的主题信息对文本进行标注;
首先使用主成分分析法对100维句向量映射到较低维度,得到降维的句向量,接下来使用kmeans算法对所述句向量进行聚类得到几个簇,对所述簇依次进行编号,并分别将对应的句子打上与簇相同的标号;
步骤4,用训练集训练分类器,将训练集中已有的主题标签分配至文本中的所有句子。
主题标注时,首先利用训练集训练一个SVM分类器,接下来利用这个SVM分类器对句向量进行分类,为每一个句子分配一个主题标签。
步骤5,对数字标签标注结果和主题标签标注结果综合进行修正
501,将SVM分类结果与kmeans聚类结果按顺序进行一一配对,对于kmeans聚类结果中的每个数字标签,统计其对应的SVM主题标签及每个主题标签的个数,并将数字标签和与其对应的出现最多次数的主题标签进行对应,构成一个查询字典。如果存在某两个数字标签下出现次数最多的主题标签相同的情况,则暂时不将这两个数字标签与主题标签进行对应,等到其他的主题标签与数字标签对应完成后,再根据空缺的标号与空缺的主题标签进行对应;
502,将SVM中的主题标签按照查询字典进行映射,映射结果为一个标号集合;对这个标号集合与kmeans聚类结果得到的标号集合进行异或操作,得到一个0-1向量。
503,根据所述0-1向量对SVM得到的主题标签进行修正:对于异或得到的结果中的所有的1,对其左侧句子和右侧句子分别进行分析,如果两边的结果均为0,且标签一致,则将该位置更正为与左右句子的标签一致;如果两侧结果均为0,但标签不同,则该位置的句子单独属于一个类;如果两侧有一个1,则以0一侧的标签为准进行修正;如果两侧均为1,则不进行任何操作;循环执行503,直至结果不再发生变动,得到稳态结果如图2所示;
504,根据503得到的稳态结果,每一个句子都被分配了一个单独的数字标签,并对应着一个主题标签,并且每一个主题标签只会在相邻的几个句子之间出现,即不会出现:句子1属于主题标签A,其相邻的句子2属于主题标签B,其后出现的句子3又属于主题标签A的情况;根据句子主题标签发生改变的边界,对文本进行切割,即可得到带主题标签的文本片段,如图3所示。

Claims (9)

1.一种基于主题信息的文本切割方法,其特征在于,包括以下步骤:
步骤1,对输入文本以及训练集进行预处理,获得一系列单词组成的句子;
步骤2,对步骤1得到的句子进行特征提取,得到每个句子的句向量;
步骤3,利用步骤2获得的输入文本的特征向量,根据其蕴含的语义信息对输入文本进行聚类操作,得到一系列句子簇,并为每个簇按顺序分配一个数字标签,得到一系列带有数字标签的单句;
步骤4,利用训练集训练分类器,将步骤2得到的输入文本的特征向量使用分类器进行分类,为每一个句子分配一个训练集中已有的主题标签,使得训练集中已有的主题标签分配至文本中的所有句子,得到分配了主题标签的单句;
步骤5,对步骤3得到的带有数字标签的单句和步骤4得到的已分配主题标签的单句进行综合进行修正,得到带主题标签的文本片段,修正的具体操作如下:
501,将步骤4中的分类结果与步骤3中的聚类结果按顺序进行一一配对,对于聚类结果中的每个数字标签,统计其对应的分类主题标签及每个主题标签的个数,并将数字标签和与其对应的出现最多次数的分类主题标签进行对应,构成一个查询字典;
502,将分类主题标签按照步骤501所得查询字典进行映射,映射结果为一个标号集合,对所述标号集合与聚类结果得到的标号集合进行异或操作,得到一个0-1向量;
503,根据步骤502所得0-1向量对分类得到的主题标签进行修正:对于异或操作得到的结果中的所有的1,对其左侧句子和右侧句子分别进行分析,如果两边的结果均为0,且标签一致,则将对于异或操作结果为1位置处句子的标签更正为其左右句子的标签;如果两侧结果均为0,但标签不同,则对于异或操作得到结果为1位置处的句子单独归属为一个类;如果两侧有一个1,则以0一侧的标签为准进行修正;如果两侧均为1,则不进行任何操作;循环执行503,直至结果不再发生变动,得到稳态结果;
504,根据503得到的稳态结果,每一个句子都被分配了一个单独的数字标签,数字标签并对应着一个主题标签,并且每一个主题标签只会在相邻的几个句子之间出现,根据句子主题标签发生改变的边界,对文本进行切割,即可得到带主题标签的文本片段。
2.根据权利要求1所述的基于主题信息的文本切割方法,其特征在于,步骤1中,所述预处理是将输入文本按照句子结尾标点符号进行划分,获得一系列单独的句子,并对所得单独的句子进行分词。
3.根据权利要求2所述的基于主题信息的文本切割方法,其特征在于,步骤1中,所述句子结尾标点符号包括所有可以用于中文单句结尾处的标点符号。
4.根据权利要求2所述的基于主题信息的文本切割方法,其特征在于,步骤1中,需要去除单独句子中的数字、停用词、标点符号以及所有非中文字符;所述句子的格式为:每一行为一系列单词,单词之间使用空格隔开。
5.根据权利要求1所述的基于主题信息的文本切割方法,其特征在于,从经过步骤1预处理得到的文本中提取一部分句子作为训练集,训练集的格式为:句子-主题标签,其中句子和主题标签均为中文文本。
6.根据权利要求1所述的基于主题信息的文本切割方法,其特征在于,步骤2具体包括以下步骤:
S201,使用连续词袋模型将文本中出现的每一个单词转化为一个100维的词向量;
S202,根据S201得到的词向量,使用WR方法对句子进行建模,得到一个初始句向量vs
S203,对输入文本中的每个句子,循环执行S202,得到一个行数为句子个数,列数为100的初始句向量矩阵;
S204,将S203中得到的初始句向量矩阵进行转置,并进行矩阵奇异值分解,移除句子中无关的特征,分解之后得到三个矩阵,取出第一个矩阵,并记为u;
S205,对输入文本中的某个句子s,根据S202中得到的初始句向量vs以及S204中得到的矩阵u,进行如下操作
vs=vs-uuTvs
其中,uT表示矩阵u的转置,等号左侧的vs即为句子s的最终句向量;
S206,对输入文本中的每个句子,循环执行S205,得到每一个句子所对应的最终句向量。
7.根据权利要求6所述的基于主题信息的文本切割方法,其特征在于,步骤202中,首先根据词频对单个句子中的每个词向量赋予一定的权重,该权重由人工设置;通过如下公式得到一个初始句向量
Figure FDA0002617331410000031
其中vs为初始句向量,s为句子集合中的某个句子,w为该句子中出现的某个单词,a为人工设置的权重参数,p(w)为单词w在所有句子中出现的频率,vw表示单词w的词向量。
8.根据权利要求6所述的基于主题信息的文本切割方法,其特征在于,步骤3中,首先使用主成分分析法对步骤2所得句向量进行特征提取,使得句向量从100维映射到较低维度,并得到降维之后的句向量,接下来使用kmeans算法对降维后的句向量进行聚类,得到若干个簇,对所述簇依次进行编号,并分别将簇对应的句子打上与所述簇相同的标号,得到一系列带有数字标签的单句。
9.根据权利要求1所述的基于主题信息的文本切割方法,其特征在于,步骤501中,如果存在某两个数字标签下出现次数最多的主题标签相同的情况,则暂时不将这两个数字标签与主题标签进行对应,等到其他的主题标签与数字标签对应完成后,再根据空缺的标号与空缺的主题标签进行对应。
CN201910339645.0A 2019-04-25 2019-04-25 一种基于主题信息的文本切割方法 Active CN110110326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339645.0A CN110110326B (zh) 2019-04-25 2019-04-25 一种基于主题信息的文本切割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339645.0A CN110110326B (zh) 2019-04-25 2019-04-25 一种基于主题信息的文本切割方法

Publications (2)

Publication Number Publication Date
CN110110326A CN110110326A (zh) 2019-08-09
CN110110326B true CN110110326B (zh) 2020-10-27

Family

ID=67486743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339645.0A Active CN110110326B (zh) 2019-04-25 2019-04-25 一种基于主题信息的文本切割方法

Country Status (1)

Country Link
CN (1) CN110110326B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717316B (zh) * 2019-09-24 2021-07-30 清华大学 字幕对话流的主题分割方法及装置
CN112784048B (zh) * 2021-01-26 2023-03-28 海尔数字科技(青岛)有限公司 对用户问题进行情感分析的方法、装置、设备及存储介质
CN113470651A (zh) * 2021-06-04 2021-10-01 广东外语外贸大学 基于摘要提取的语音评分方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000062194A2 (en) * 1999-04-12 2000-10-19 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US7400981B1 (en) * 2000-08-23 2008-07-15 David Roth Rigney Systems, methods, and computer program product for analyzing microarray data
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN108009156A (zh) * 2017-12-27 2018-05-08 成都信息工程大学 一种基于部分监督学习的中文概括性文本切分方法
CN108009157A (zh) * 2017-12-27 2018-05-08 北京嘉和美康信息技术有限公司 一种语句归类方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
CN1894686A (zh) * 2003-11-21 2007-01-10 皇家飞利浦电子股份有限公司 用于文档构造的文本分段和主题注释
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN106485211B (zh) * 2016-09-26 2019-05-21 西安交通大学 一种基于二叉树的文本行精确定位方法
CN106649713B (zh) * 2016-12-21 2020-05-12 中山大学 一种基于内容的电影可视化处理方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000062194A2 (en) * 1999-04-12 2000-10-19 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US7400981B1 (en) * 2000-08-23 2008-07-15 David Roth Rigney Systems, methods, and computer program product for analyzing microarray data
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN108009156A (zh) * 2017-12-27 2018-05-08 成都信息工程大学 一种基于部分监督学习的中文概括性文本切分方法
CN108009157A (zh) * 2017-12-27 2018-05-08 北京嘉和美康信息技术有限公司 一种语句归类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Legal Document Clustering;Qiang Lu William Keenan等;《CIKM"11,October24-28,2011》;20110928;第383-392页 *
基于主题分析的文本分割技术研究;刘铭,王晓龙等;《电子学报》;20090228;第37卷(第2期);第278-284页 *

Also Published As

Publication number Publication date
CN110110326A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
Wang et al. A two-stage parsing method for text-level discourse analysis
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN106649851A (zh) 近似商标查询结果排序方法、装置及其商标服务器
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN101315622B (zh) 检测文件相似度的系统及方法
Ud Din et al. Segmentation-free optical character recognition for printed Urdu text
WO2017080090A1 (zh) 一种网页正文提取比对方法
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN109472020B (zh) 一种特征对齐中文分词方法
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
CN111444720A (zh) 一种英文文本的命名实体识别方法
Ghosh et al. R-phoc: segmentation-free word spotting using cnn

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant