CN103034656B - 章节内容分层方法和装置、文章内容分层方法和装置 - Google Patents

章节内容分层方法和装置、文章内容分层方法和装置 Download PDF

Info

Publication number
CN103034656B
CN103034656B CN201110303684.9A CN201110303684A CN103034656B CN 103034656 B CN103034656 B CN 103034656B CN 201110303684 A CN201110303684 A CN 201110303684A CN 103034656 B CN103034656 B CN 103034656B
Authority
CN
China
Prior art keywords
word
core word
stratum
chapters
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110303684.9A
Other languages
English (en)
Other versions
CN103034656A (zh
Inventor
刘宏建
周泉
邓攀
小林义行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi China Research and Development Corp
Original Assignee
Hitachi China Research and Development Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi China Research and Development Corp filed Critical Hitachi China Research and Development Corp
Priority to CN201110303684.9A priority Critical patent/CN103034656B/zh
Publication of CN103034656A publication Critical patent/CN103034656A/zh
Application granted granted Critical
Publication of CN103034656B publication Critical patent/CN103034656B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种章节内容分层方法和装置以及文章内容分层方法和装置。本发明在充分考虑文章本身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上,利用选定词在文章中的出现频率,形成分层结构,将文章的内容分层。这样,能够有效地反映文章内容的结构层级关系。本发明还通过对不同章节、不同文章的内容进行结构处理,能够对跨文档内容进行有效的合并,从而实现跨文档间信息的有效管理,以便用户能够快速地获取所需的信息。

Description

章节内容分层方法和装置、文章内容分层方法和装置
技术领域
本发明涉及一种文章内容分层方法和装置,尤其涉及根据章节、文章内容的结构信息,进行章节、文章内容分层方法和装置。
背景技术
近年来,随着信息技术的发展使收集、存储信息的能力得到迅速增长。数据管理技术的进步促进了商业和政府事务的信息化,产生了大量的数据信息,特别是随着互联网技术的发展,互联网上的信息更是按指数速度增长,并且其中大部分信息的格式为软件文件。为了管理这些数据,大型数据库正被广泛地应用于商业和科学工程等领域。
然而,虽然数据库技术的进步使信息的收集和存储变得越来越容易,但是数据规模的爆炸性增长,已远远超出了人们的接受能力。随着数据库和计算机网络的广泛应用,数据库中存储的数据量急剧增大。在数量庞大的数据的背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。但传统的数据分析方法,很难对这些数据进行深层次的处理,也无法发现数据中存在的内在关系和隐含的信息。这样,造成在以指数形式增长的数据与人们从中能够获取的有效信息之间形成巨大的反差,导致了“数据爆炸但知识贫乏”的现象,如何让人们从庞大的信息中快速获取有效的信息成为当务之急。
在这种情况下,专利申请CN1669029A公开了一种自文件集合中自动搜寻概念层次结构的方法及装置,该申请提供了一种方法来对文件中的概念进行自动分层。虽然上述方法涉及到知识分类的方法,但是由于该专利申请仅利用词汇频率分布的相似度来进行分层、聚类并以此进行概念抽取,并没有考虑文档自身具有的结构特点,另外上述专利申请仅考虑了通过多种文档进行概念抽取的方法,并没有根据文档自身的结构,因而难以对文档信息进行有效管理。
发明内容
本发明是鉴于上述问题而提出的,其目的在于提供一种根据文章内容的结构信息,进行文章内容分层的方法及装置。
本发明的章节内容分层方法,包括:抽取所述章节所包含的标题中的多个词汇的第1抽取步骤;将所抽取的标题中的所述词汇选定为核心词的选定步骤;利用规定了词汇隶属关系的隶属关系表,对所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤;对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤;抽取所述标题以外的语句中的多个词汇的第2抽取步骤;将所抽取的多个词汇选定为选定词,基于所述选定词在文章中的出现频率进行排列的第1排列步骤;和按照出现频率高低的顺序,根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下,形成子树归并图的第1分层步骤。
本发明的文章内容分层方法,对于得到的子树归并图,根据关联词表,找出同一阶层中的核心词的关联性,通过相关联的所述核心词的上位关联词,将不同的子树归并图连接起来生成树归并图。
本发明的章节内容分层装置,包括:第1抽取装置,抽取所述章节所包含的标题中的多个词汇;选定装置,将所抽取的标题中的所述词汇选定为核心词;第1区域设置装置,利用规定了词汇隶属关系的隶属关系表,对所述标题中所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词来形成第1区域分层结构;第2区域设置装置,对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词,而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构;第2抽取装置,抽取所述标题以外的语句中的多个词汇;第1排列装置,选定所抽取的多个词汇为选定词,基于所述选定词在文章中的出现频率进行排列;和第1分层装置,按照出现频率高低的顺序,根据关联词表找出与第2阶层的核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层的所述核心词之下,形成子树归并图。
本发明的文章内容分层装置,还包括连接装置,对于依据本发明的章节内容分层得到的子树归并图,根据关联表同一阶层中核心词的关联性,将不同子树归并图连接起来,生成树归并图。
本发明在根据章节自身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上,利用了词汇的重要度(即词汇在文档中出现的频率),这样,通过章节内容分层,能够更加有效地反映章节中的结构层次关系,并且节省了处理时间。另外,本发明还通过对文章的各章节以及不同文章间分层处理,能够进行跨文档内容的合并,因而对文档内容能够进行有效的管理且大大地提高了处理速度。
附图说明
图1是表示本发明的章节内容分层装置的结构示意图。
图2是说明图1的章节内容分层装置的操作的流程图。
图3A和图3B是表示实施例1的隶属关系和并列关系的示意图。
图4是表示实施例1的章节内容分层结构的示意子树归并图。
图5A和图5B是表示不同的章节内容分层结构的示意子树归并图,图5C是表示连接不同的章节内容分层结构的示意树归并图。
图6A和图6B是表示不同的章节内容分层结构的示意子树归并图,图6C是表示合并不同的章节内容分层结构的示意树归并图。
具体实施方式
下面,基于附图对本发明的实施方式进行说明。
图1是本发明装置的结构示意图。
在图1的章节内容分层装置中,语料库101存放有多种文档,第1数据处理部102对语料库101的数据进行分析处理而得到关联词表等数据,将经处理的例如关联词表数据存放到数据存储部103中,数据存储部103还存储有高频词表、隶属关系词汇表、并列关系词汇表等中间处理数据等。输入单元104用来接收用户输入的各类文档,其中,文档的输入形式不限,可手动输入、也可以直接从已有文献库中输入。第2数据处理部105对输入文章根据其结构特点和利用存储在数据存储部103中的关联词表等进行分析处理。然后将经分析而得到的结果树归并图由显示单元104显示。显示单元104作为输出单元,用来向用户输出最终处理信息。
在此,第1数据处理部102可以采用现有的同义词词典等进行处理而预先得到关联词表。高频词表是根据例如《现代汉语词频统计语料库》等中的词频信息而得到。出现频率表根据后述的选定词在章节中出现频率进行排列而生成。
图2说明图1的章节内容分层装置的分析处理方式与过程。
从输入单元104得到输入标题和语句(步骤S201),并对输入的标题和语句进行分词处理,即按照标题和语句的语法结构将标题和语句分割为多个词汇,接着,利用高频词表删除经分词处理的词汇中的虚词,例如“的”、“和”这样的高频词,将删除了标题和语句中的高频词后的词汇确定为选定词(步骤S202),根据选定词在文章中的出现频率生成出现频率表,并将在步骤S202得到的结果存储在数据存储部103中。
通过采用现有的分析文章的格式(样式)的方法,判断章节是否为带有标题的章节,针对不带有标题的章节的处理方式在后面进行说明。
以下说明带有标题的章节的处理过程。首先,将在步骤S202中选定的标题中的选定词确定为核心词,提取标题中的核心词(步骤S203)。接着,判断标题中的核心词是属于隶属关系还是并列关系(步骤S204)。通过利用隶属关系词汇表或并列关系词汇表来判断核心词是隶属关系还是并列关系。在此,隶属关系表包括具有各种隶属关系的词汇,而并列关系表包括具有并列关系的词汇,隶属关系表和并列关系表均预先生成并存储在上述数据存储部103中。
如果判断为标题中的核心词间存在隶属关系(步骤S207),则根据该隶属关系直接将属于上位的核心词作为第1阶层而将属于下位的核心词作为第2阶层进行分层,从而形成具有隶属关系的第1区域分层结构(步骤S208)。
接着,对于标题中的其他核心词进行进一步分析,如果其他核心词间存在并列关系(步骤S206),则根据这些其他核心词出现在文档中的频率,利用步骤S202生成的出现频率表,将出现频率高的该核心词作为第1阶层,而将剩余的另一个核心词作为第2阶层。即,属于并列关系的核心词根据在文档中出现的频率来进行归类。将出现频率高的核心词作为第1阶层而频率低的另一核心词作为第2阶层进行分层,从而形成具有并列关系的第2区域分层结构(步骤S208)。
然后,对标题以外的章节进行处理,即提取标题以外的语句的选定词(步骤S205),基于这些词汇在文章中的出现频率进行排列,按照出现频率高低的顺序,利用步骤S202生成的出现频率表和存储在第1数据存储部的关联词表,找出与第2阶层的词汇最相关联的词汇(步骤S209),将包含该词汇的语句作为第3阶层置于与其有相关关系的所述第2阶层之下(步骤S210),从而形成子树归并图。
通过以上分析,可以得到带有标题的章节的多个子树归并图。对于不同的带有标题的章节,通过相同的处理,可以得到各自章节的多个子树归并图。
对于不带标题的章节,也根据步骤S202生成的出现频率表的方式,对不带标题的语句进行分词,删除高频词,再将删除了高频词并选定为选定词的词汇按照在文档中出现频率高低的顺序进行排列,利用关联词表,对经排列的选定词与不同章节的所有子树归并图的第2阶层核心词间进行关联性判断,当判断为该选定词与第2阶层的某个核心词最相关联时,将包含该选定词的语句置于该第2阶层核心词之下,形成结构阶层图。通过多次反复循环处理,可以得到包括带标题章节和不带标题章节的文章的内容结构阶层图,即,可以得到文章内容的树归并图。
(实施例1)
以下通过一个简单的实施例说明本发明分析过程。例如,在文档中存在以下章节,即带有标题的段落。
(1)ID3算法的假设空间包含所有的决策树,搜索空间是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树,所以它避免了假设空间可能不包含目标函数的风险。
(2)ID3算法在搜索的每一步都使用当前的所有训练样本,以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样本错误的敏感性,因此,通过修改算法可以很容易地扩展到处理含有噪声的训练样本。
(3)ID3算法采用自顶向下的搜索策略,搜索全部空间的一部分,确保所作的测试次数较少,分类速度较快。算法的计算时间与样本例子个数、特征个数、结点个数三者之积呈线性关系。
(10)以上,分析和考察了ID3算法的优点。
根据图2,首先在输入单元104输入上述章节的语句和标题,根据“ID3算法的优点的分析与考察”是黑体、且下方包含(1)~(10)序号,可以确定“ID3算法的优点的分析与考察”是章节中的标题,同时确定(1)(2)...(10)序号中的内容为章节的段落。
在步骤S202进行了以下处理:对标题“ID3算法的优点的分析与考察”进行分词,得到“ID3算法/的/优点/分析/与/考察”,由于“的”和“与”为高频词表中存在的高频词,所以将高频词表中“的”和“与”删除,在此,仅说明了标题中选定词的选定过程,而对于语句中选定词的选定也进行同样处理,在此不作详细地说明。选定的结果,保留核心词“ID3算法”、“优点”、“分析”和“考察”。在步骤S202中得到核心词(步骤S203)后,判断核心词“ID3算法”与“优点”、“分析”与“考察”之间的关系(步骤S204)。
根据隶属关系词汇表判断“ID3算法”与“优点”为隶属关系(步骤S207),故将属于隶属关系中的上位的“ID3算法”作为第1阶层核心词,而将下位的“优点”作为第2阶层核心词形成第1区域分层结构(步骤S208),建立子树归并图(参见图3A)。
接着,对于核心词“分析”与“考察”,根据隶属关联词表可以判断不属于隶属关系,在判断为不属于隶属关系的情况下,根据并列关联词表判断核心词“分析”与“考察”为并列关系(步骤S206)。根据核心词“分析”与“考察”在段落(1)~(10)中的出现频率,经统计,可以知道核心词“分析”共计出现8次,而核心词“考察”共计出现3次,由于核心词“分析”的出现频率比核心词“考察”高,故将“分析”作为第1阶层核心词,并且与上述第1区域中的第1阶层核心词并列,而将“考察”作为第2阶层核心词形成第2区域分层结构(步骤S208),建立章节内容结构的子树归并图(参见图3B)。
另外,上述隶属关系表和并列关系表均为预先生成的且已知的表,关联性表可以是根据同义词词典而生成的。
在对标题进行分析处理后,对标题下面的带有(1)(2)...(10)序号的段落进行分析处理,对提取的段落选定词,首先根据在步骤S202中生成的出现频率表,按照出现频率高低的顺序进行排序,再利用关联词表,找出按出现频率高低的排列的与上述第2阶层的中核心词的最相关的选定词,一旦找到这样的选定词,则将包含该选定词的语句作为第3阶层置于第2阶层核心词之下,形成文章内容的结构阶层图。
针对(1)(2)...(10)序号的段落,提取段落中的选定词(步骤S205),按照出现频率高低的排列,根据关联词表判断关联关系。即,分析出现频率表中的选定词与第2阶层核心词的“优点”、“缺点”、“参考文献”和“考察”的关系。例如,从关联词表中找到选定词“避免”与第2阶层核心词“优点”最相关联(步骤S209),故在段落中找到包含关联词“避免”的语句,将包含与第2阶层核心词“优点”最相关联的该关联词“避免”的语句,即“因为每个有限离散值函数可以被表示为某个决策树,所以它避免了假设空间可能不包含目标函数的风险。”作为第3阶层置于第2阶层之下(步骤S210)。这样便可以得到如图4所示的树归并图。
与上述过程相同,可以对其他章节的标题如“ID3算法的缺点”和“ID3算法所用的参考文献”等进行同样的处理,由于“缺点”、“参考文献”与“D3算法”属于隶属关系,故将下位的“缺点”、“参考文献”作为第2阶层核心词建立子树归并图。
(实施例2)
在实施例1中,通过举例对章节内容分层处理进行了简单的说明,利用该方法可以针对一篇文章中的不同章节进行分析而得到多个子树归并图,如图5A和5B所示。对于不同的子树归并图,可以根据关联词表判断同一阶层中词汇的关联性,如果存在关联,则通过它们的相应的关联词汇将不同子树归并图连接起来,生成更高阶层的树归并图(参见图5c)。例如,从关联词表可知,根据核心词“C4.5算法”和“ID3算法”与“决策树”存在关联,故通过上位相关词“决策树”将核心词“C4.5算法”和“ID3算法”列在上位相关词“决策树”,形成如图5c所示的结构阶层图。
另外,对于不同的子树归并图,图6A存在结点为核心词“ID3算法”,图6B也存在结点为核心词“ID3算法”。当两个节点为相同时,可以对两个子树归并图进行合并,生成一个更完整的树归并图,如图6c所示,将两个子树归并图的共同的节点“ID3算法”作为新树归并图的节点。
(实施例3)
对于不带标题的章节,通过以下实施方式形成树归并图。
首先,对于通过输入单元输入的不带标题的章节的每一个语句,在判断章节没有标题时,将输入的语句进行分词,按各词汇在章节中的出现频率根据出现频率高低进行排列,再根据关联词表找出与多个子树归并图的第2阶层最相关联的词汇,将包含找出的与第2阶层最相关联的词汇的语句置于该第2阶层之下作为第3阶层,形成结构阶层图。
同样,也可以将不同章节的树归并图进行合并来形成文章信息归并图。
以上对本发明的实施例进行了说明,本发明不限定于上述实施方式(实施例),能够基于本领域的技术人员的知识进行各种设计变更等变形,已施加这种变形的实施方式(实施例)也包括在本发明的范围内。

Claims (9)

1.一种章节内容分层方法,其特征在于,包括:
抽取文章的章节的步骤;
抽取所述章节所包含的标题中的多个词汇的第1抽取步骤;
将所抽取的标题中的所述词汇选定为核心词的选定步骤;
利用规定了词汇隶属关系的隶属关系表,对所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤;
对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤;
抽取所述标题以外的语句中的多个词汇的第2抽取步骤;
将所抽取的多个词汇选定为选定词,基于所述选定词在文章中的出现频率进行排列的第1排列步骤;和
按照出现频率高低的顺序,根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下,形成子树归并图的第1分层步骤。
2.如权利要求1所述的方法,其特征在于:
在所述第1抽取步骤和第2抽取步骤中,所述抽取是按照所述标题和/或语句的语法结构将所述标题和/或语句分割为多个词汇的处理。
3.如权利要求1所述的方法,其特征在于:
在所述选定步骤中,所述选定是通过删除所述词汇中的虚词而得到所述核心词和/或选定词的处理。
4.如权利要求1~3中任一项所述的方法,其特征在于:
所述关联词表基于语料库生成。
5.一种文章内容分层方法,所述文章包括带标题的章节和不带标题的章节,其特征在于:
对于权利要求1~4任一项所述的方法得到的子树归并图,根据关联词表,找出同一阶层中的核心词的关联性,通过相关联的所述核心词的上位关联词,将不同的子树归并图连接起来生成树归并图。
6.如权利要求5所述的方法,其特征在于,包括:
针对不带标题的章节,抽取所述章节的语句中的多个词汇,将抽取的词汇选定为选定词,基于所述选定词在所述文章中的出现频率进行排列的第2排列步骤,
按照出现频率高低的顺序,找出与所述第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下的第2分层步骤。
7.一种章节内容分层装置,其特征在于,包括:
第1抽取装置,抽取文章的章节,抽取所述章节所包含的标题中的多个词汇;
选定装置,将所抽取的标题中的所述词汇选定为核心词;
第1区域设置装置,利用规定了词汇隶属关系的隶属关系表,对所述标题中所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词来形成第1区域分层结构;
第2区域设置装置,对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词,而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构;
第2抽取装置,抽取所述标题以外的语句中的多个词汇;
第1排列装置,选定所抽取的多个词汇为选定词,基于所述选定词在文章中的出现频率进行排列;和
第1分层装置,按照出现频率高低的顺序,根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层的核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层的所述核心词之下,形成子树归并图。
8.一种文章内容分层装置,所述文章包括带标题的章节和不带标题的章节,其特征在于:
还包括连接装置,对于根据权利要求7所述装置得到的子树归并图,找出同一阶层中的核心词的关联性,通过相关联的所述核心词的上位关联词,将不同的子树归并图连接起来生成树归并图。
9.如权利要求8所述的装置,其特征在于:
还包括第2排列装置,针对不带标题的章节,抽取所述章节的语句中的多个词汇,将所抽取的词汇选定为选定词,基于所述选定词在章节中的出现频率进行排列;和
第2分层装置,按照所述出现频率高低的顺序,找出与第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下。
CN201110303684.9A 2011-09-29 2011-09-29 章节内容分层方法和装置、文章内容分层方法和装置 Expired - Fee Related CN103034656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110303684.9A CN103034656B (zh) 2011-09-29 2011-09-29 章节内容分层方法和装置、文章内容分层方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110303684.9A CN103034656B (zh) 2011-09-29 2011-09-29 章节内容分层方法和装置、文章内容分层方法和装置

Publications (2)

Publication Number Publication Date
CN103034656A CN103034656A (zh) 2013-04-10
CN103034656B true CN103034656B (zh) 2016-04-20

Family

ID=48021558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110303684.9A Expired - Fee Related CN103034656B (zh) 2011-09-29 2011-09-29 章节内容分层方法和装置、文章内容分层方法和装置

Country Status (1)

Country Link
CN (1) CN103034656B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951439A (zh) * 2014-03-24 2015-09-30 明博教育科技有限公司 一种电子书籍及其相关电子资源的整合获取方法及系统
JP5923806B1 (ja) * 2015-04-09 2016-05-25 真之 正林 情報処理装置及び方法、並びにプログラム
US10275430B2 (en) 2015-06-29 2019-04-30 Microsoft Technology Licensing, Llc Multimodal sharing of content between documents
CN107341142B (zh) * 2017-05-18 2020-08-21 辛柯俊 一种基于关键词提取分析的企业关系计算方法及系统
CN108427767B (zh) * 2018-03-28 2020-09-29 广州市创新互联网教育研究院 一种知识主题和资源文件的关联方法
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统
CN101281530A (zh) * 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596485B2 (en) * 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统
CN101281530A (zh) * 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识元理论的应急文档结构化建模;廖开际等;《计算机应用研究》;20110131;第28卷(第1期);正文第2.2节,表2,图2 *

Also Published As

Publication number Publication date
CN103034656A (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
US20030004942A1 (en) Method and apparatus of metadata generation
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
CN104166651A (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、系统和存储介质
CN105095436A (zh) 数据源数据自动建模方法
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN103034657B (zh) 文档摘要生成方法和装置
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN110874366A (zh) 数据处理、查询方法和装置
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
Shen et al. A cross-database comparison to discover potential product opportunities using text mining and cosine similarity
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN114064821A (zh) 基于语义识别的数据资源分类组织方法及系统
CN114707003A (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN111709239A (zh) 一种基于专家逻辑结构树的地学数据发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20170929