CN113806524A - 一种文本内容的层级类目构建和层级结构调整方法及装置 - Google Patents
一种文本内容的层级类目构建和层级结构调整方法及装置 Download PDFInfo
- Publication number
- CN113806524A CN113806524A CN202010546744.9A CN202010546744A CN113806524A CN 113806524 A CN113806524 A CN 113806524A CN 202010546744 A CN202010546744 A CN 202010546744A CN 113806524 A CN113806524 A CN 113806524A
- Authority
- CN
- China
- Prior art keywords
- text
- class
- title
- words
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本内容的层级类目构建和层级结构调整方法及装置。文本内容的层级类目构建方法包括:抽取文本内容中文本单元的核心词,根据核心词的词特征数据生成句特征数据;对句特征数据进行聚类,将文本单元划分为多个类,生成类的标题;当前生成的类不满足预设的终止聚类条件时,将当前类的标题进行聚类得到当前类的上一层级的类,生成上一层级的类的标题;按照所有的标题生成文本内容的类目。使得文本内容的多层级类目自动化构建得以实现。
Description
技术领域
本发明涉及数据分析技术领域,特别涉及一种文本内容的层级类目构建和层级结构调整方法及装置。
背景技术
为了便于快捷高效的了解大量文本内容包含的主要信息,往往需要建立文本内容的类目,按类目有条理的将文本内容进行归类,即将文本内容进行类目结构抽取。例如,新闻行业往往会针对收集到的大量信息短文做类目结构抽取,以快速了解信息的大概类别和包含内容;客服中心经常会根据客户提问的问题进行类目结构抽取,以便了解客户问题的大概类别和方向。
传统的类目结构抽取一般都是基于关键词的一级分类的抽取,若要实现多层级类目结构抽取则需要人工设置好类目,无法实现多层级类目结构的自动化抽取。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本内容的层级类目构建和层级结构调整方法及装置。
第一方面,本发明实施例提供一种文本内容的层级类目构建方法,包括:
抽取文本内容中文本单元的核心词,根据所述核心词的词特征数据生成句特征数据;
对所述句特征数据进行聚类,将文本单元划分为多个类,生成类的标题;
当前生成的类不满足预设的终止聚类条件时,将当前类的标题进行聚类得到当前类的上一层级的类,生成所述上一层级的类的标题;
按照所有的标题生成所述文本内容的类目。
在一些可选的实施例中,所述抽取文本内容中文本单元的核心词,具体包括:
针对文本内容中的文本单元,将所述文本单元进行分词处理,确定得到的词的权重;
将文本单元中的权重高于预设权重阈值的词确定为备选核心词;
将词性满足预设要求的备选核心词确定为核心词。
在一些可选的实施例中,所述将词性满足预设要求的备选核心词确定为核心词后,还包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子,根据句法分析确定核心词在组成的句子中的句法结构,所述句法结构包括主语、谓语、宾语、定语、状语和补语;
将句法结构不符合预设结构要求的核心词过滤掉。
在一些可选的实施例中,所述确定得到的词的权重前,还包括:
将得到的词中与预设停用词一致的词过滤掉。
在一些可选的实施例中,所述对所述句特征数据进行聚类,将文本单元划分为多个类,具体包括:
利用选定的密度聚类算法,确定两两句特征数据之间的余弦相似度,根据余弦相似度将对应的文本单元划分为多个类;对应的,所述将当前类的标题进行聚类得到当前类的上一层级的类,具体包括:
根据当前类的标题生成标题特征数据,利用所述密度聚类算法,确定两两标题特征数据之间的余弦相似度,根据余弦相似度将对应的标题划分为至少一个类,作为该标题对应的类的上一层级的类。
在一些可选的实施例中,所述生成类的标题,具体包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;
确定类对应的句子中的核心词在该类中出现的频率,将预设个数的频率最高的核心词确定为标题词;
确定标题词在对应的句子中的平均出现次序,将标题词按照所述平均出现次序组成标题。
在一些可选的实施例中,所述生成类的标题,具体包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;
利用预先训练好的生成式模型,根据类对应的句子生成类的标题。
在一些可选的实施例中,所述判断当前生成的类是否满足预设的终止聚类条件,包括执行下述至少一项:
判断当前生成的类的个数是否为1;
判断当前生成的类的个数是否等于当前生成的类的下一层级类的个数;
判断当前所有类的层级数是否等于预设层级数。
第二方面,本发明实施例提供一种文本内容的层级结构调整方法,包括:
按照上述文本内容的层级类目构建方法,构建文本内容的层级类目,得到所述层级类目中的标题与所述文本内容中的文本单元的对应关系;
根据所述对应关系将文本单元调整为层级结构。
第三方面,本发明实施例提供一种文本内容的层级类目构建装置,包括:
抽取模块,用于抽取文本内容中文本单元的核心词,根据所述核心词的词特征数据生成句特征数据;
聚类模块,用于对所述抽取模块得到的句特征数据进行聚类,将文本单元划分为多个类;
第一生成模块,用于生成所述聚类模块得到的类的标题;
判断模块,用于判断所述聚类模块当前生成的类是否满足预设的终止聚类条件;
当所述判断模块判断为否时,所述聚类模块用于将当前类的标题进行聚类得到当前类的上一层级的类,所述第一生成模块用于生成所述上一层级的类的标题,所述判断模块用于继续执行所述判断当前生成的类是否满足预设的终止条件;
第二生成模块,用于当所述判断模块判断为否时,按照所有的标题生成所述文本内容的类目。
第四方面,本发明实施例提供一种文本内容的层级结构调整装置,包括层级类目构建模块和层级结构调整模块;
所述层级类目构建模块,用于按照上述文本内容的层级类目构建方法,构建文本内容的层级类目,得到所述层级类目中的标题与所述文本内容中的文本单元的对应关系;
所述层级结构调整模块,用于根据所述层级类目构建模块得到的对应关系将文本单元调整为层级结构。
第五方面,本发明实施例提供一种客服系统,包括服务器和多个客户端;
所述服务器用于将从所述客户端接收到的提问文本,按照上述文本内容的层级类目构建方法,构建提问文本的层级类目,得到所述层级类目中的标题与所述提问文本的对应关系;
根据所述对应关系将提问文本调整为层级结构。
第六方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,当该指令被处理器执行时实现上述文本内容的层级类目构建方法,或实现上述文本内容的层级结构调整方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的文本内容的层级类目构建方法,首先提取文本内容中文本单元的核心词,将核心词向量化,得到核心词的词特征数据,进而得到每个文本单元对应的句特征数据;对句特征数据进行聚类,将文本单元划分为多个类,生成类的标题;将当前生成的类的标题为新的聚类对象,得到对应的当前类的上一层级的类,并生成类的标题;循环聚类,直至满足终止条件。通过核心词组成的句子的句特征数据的聚类,实现了最低层级类目的自动建立;进而以当前的类的标题为新的聚类对象,循环聚类,每聚类一次得到更高一级的类,并生成标题,直至满足终止聚类的条件,实现了多层级类目的自动构建,且无需人工预先设置类目。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一中文本内容的层级类目构建方法的流程图;
图2为本发明实施例一中生成类的标题的具体实现流程图;
图3为本发明实施例一中文本单元核心词抽取的具体实现流程图;
图4为本发明实施例一中文本内容的层级类目构建方法具体实现流程图;
图5为本发明实施例二中文本内容的层级结构调整方法的流程图;
图6为本发明实施例二中文本内容的层级结构调整方法具体实现流程图;
图7为本发明实施例中文本内容的层级类目构建装置的结构示意图;
图8为本发明实施例中文本内容的层级结构调整装置的结构示意图;
图9为本发明实施例中客服系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的无法实现文本内容的多层级类目结构自动化抽取的问题,本发明实施例提供一种文本内容的层级类目构建和层级结构调整方法及装置,使得文本内容的自动化多层级类目构建得以实现。
实施例一
本发明实施例一提供一种文本内容的层级类目构建方法,其流程如图1所示,包括如下步骤:
步骤S11:抽取文本内容中文本单元的核心词。
具体的,上述文本单元可以是直接获取到的,即获取到的文本内容是以文本单元的形式依次获取的,或者是获取到的文本内容已经划分好了文本单元。可选的,也可以是按照预设规则将获取到的文本内容划分为文本单元,具体可以是识别标点符号,用表示一句话结束的符号,例如句号、感叹号或者是问号等来划分文本单元;可选的,也可以是按照其他的规则来划分文本单元,文本单元的具体划分方法本实施例不做限定。
文本单元中的核心词的抽取方法,后续详细介绍。
步骤S12:根据核心词的词特征数据生成句特征数据。
词特征数据即词向量(Word embedding),又是Word嵌入式自然语言处理(NaturalLanguage Processing,NLP)中的语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。
核心词的词特征数据的生成,即词向量化的过程,具体的,可以是选用Word2Vec模型;对应的,可以是将词特征数据输入Sent2Vec模型得到句特征数据。可选的,也可以是选用其他的方法得到词特征数据和句特征数据,具体方法本实施例不做限定。
步骤S13:对句特征数据进行聚类,将文本单元划分为多个类。
在一个实施例中,可以包括,利用选定的密度聚类算法,确定两两句特征数据之间的余弦相似度,根据余弦相似度将对应的文本单元划分为多个类。
密度聚类算法具体可以选用基于密度的聚类算法(Density-Based SpatialClustering of Applications with Noise,DBSCAN)。可选的,也可以选用其他的聚类算法。
步骤S14:生成类的标题。
在一个实施例中,生成类的标题,参照图2所示,可以包括下述步骤:
步骤S21:将文本单元中的核心词按照在文本单元中的出现顺序组成句子。
核心词是从文单元中提取出来的,故针对一个文本单元,可以按照其中的核心词在文本单元中的出现顺序,将核心词排列成句子。
步骤S22:确定类对应的句子中的核心词在该类中出现的频率,将预设个数的频率最高的核心词确定为标题词。
针对每一个类,生成该类中各个文本单元对应的句子后,统计每个核心词在句子中出现的频率,例如有100个句子,核心词在40个句子中出现,则该核心词的出现频率为40%。
上述预设个数可以是根据实际情况和需求预先设置的,例如可以是设置为5或者6。生成最低层级的类的标题后先输出,工作人员根据输出结果判断预设个数是否合适,若输出的标题中大多都含有多余的词,则可以将预设个数设置的小点,重新得到输出结果,直至生成的标题合理;若输出的标题中大多都语义表达不完整,即缺少关键词,则可以将预设个数设置的大点,重新分析输出的结果,直至生成的标题合理。
即此步骤可以通过人机交互来完成,能够达到更好的效果。
步骤S23:确定标题词在对应的句子中的平均出现次序,将标题词按照平均出现次序组成标题。
例如标题词在5个句子中出现,其出现的次序(即该核心词为所在句子中的第几个核心词)分别为3、2、2、4和2,则该标题词的平均出现次序为2.6。
按照标题词的平均出现次序的由小到大的顺序,将标题词排列得到标题。
可选的,在一个实施例中,生成类的标题,也可以包括,将文本单元中的核心词按照在文本单元中的出现的顺序组成句子;利用预先训练好的生成式模型,根据类对应的句子生成类的标题。
生成式模型的方法需要有大量的训练样本;前面的高频词与词序结合的拼接方式,不需要样本数据,但计算量相对较大。故二者各有优势,可以视具体情况和需要选用不同的方式。
步骤S15:当前生成的类不满足预设的终止聚类条件时,将当前类的标题进行聚类得到当前类的上一层级的类,生成上一层级的类的标题。
具体的,在一个实施例中,判断当前生成的类是否满足预设的终止聚类条件,可以包括执行下述任一项或多项:
(1)判断当前生成的类的个数是否为1。
当前生成的类的个数为1时,说明已经聚类到了最高层级,且所有的类已经归为了一个大类,故无法再继续聚类。
(2)判断当前生成的类的个数是否等于当前生成的类的下一层级类的个数。
当前生成的类的个数等于当前生成的类的下一层级类的个数时,即下一层级的类已经是最高层级的类了,无法再继续聚类。
(3)判断当前所有类的层级数是否等于预设层级数。
将当前类的标题进行聚类得到当前类的上一层级的类,可以包括,根据当前类的标题生成标题特征数据,即将标题向量化表示;将标题特征数据进行聚类得到当前类的上一层级的类。
在一个实施例中,可以是利用选定的密度聚类算法,确定两两标题特征数据之间的余弦相似度,根据余弦相似度将对应的标题划分为至少一个类,作为该标题对应的类的上一层级的类。
若以上述标题对应的类为n层级类,上一层级的类为n+1层级的类(这里层级数越大的类,级别越高;可选的,也可以是层级数越大的类,级别越低;此处只是一种举例说明),生成上一层级的类的标题,具体可以包括,确定n层级类的标题中的标题词A在该类的标题里出现的频率,将预设个数的频率最高的标题词A确定为n+1层级的类的标题词B;确定标题词B在对应的标题中的平均出现次序,将标题词B按照平均出现次序组成n+1层级的类的标题。
上面的预设个数与步骤S22中的预设个数不同,一般情况下,生成越高层级的类的标题,标题词的预设个数越少。此处预设个数也是可以根据输出结果人机交互调整。
步骤S16:按照所有的标题生成文本内容的类目。
当前生成的类满足预设的终止条件时,按照所有的标题和标题的层级关系生成文本内容的类目。
本发明实施例一提供的文本内容的层级类目构建方法,首先提取文本内容中文本单元的核心词,将核心词向量化,得到核心词的词特征数据,进而得到每个文本单元对应的句特征数据;对句特征数据进行聚类,将文本单元划分为多个类,生成类的标题;将当前生成的类的标题为新的聚类对象,得到对应的当前类的上一层级的类,并生成类的标题;循环聚类,直至满足终止条件。通过核心词组成的句子的句特征数据的聚类,实现了最低层级类目的自动建立;进而以当前的类的标题为新的聚类对象,循环聚类,每聚类一次得到更高一级的类,并生成标题,直至满足终止聚类的条件,实现了多层级类目的自动构建,且无需人工预先设置类目。
在一个实施例中,上述步骤S11中抽取文本内容中文本单元的核心词,参照图3所示,可以包括针对文本内容中的文本单元执行下述步骤:
步骤S31:将文本单元进行分词处理。
本发明实施例能够对非结构化的短文或句子进行层级类目抽取,对于文本单元为非结构化的短文时,首先需要对文本单元进行分词处理,将文本的句子维度转换为词维度。具体的,可以选用一种分词模型来实现。当分词依赖领域知识时,需要先将领域知识的专用词加载到分词模型中,才能更准确合理的分词。
步骤S32:确定得到的词的权重。
在一个实施例中,可以通过(term frequency–inverse document requency,TF-IDF)算法确定得到的词的权重。
TF-IDF算法的原理是通过计算一个词在一句话里的频率和比重来确定重要性,假如一个词在所有句子里都出现过,那么这个词可能不是很重要,不是一个关键词,比如“的”、“了”,故它的权重较小;但是如果一个词只在少数的句子内出现过,那么这个词可能可以大概的概括出这个句子的意思,其权重较大。
步骤S33:将文本单元中的权重高于预设权重阈值的词确定为备选核心词。
步骤S34:将词性满足预设要求的备选核心词确定为核心词。
一般情况下,根据一个词的词性能够大概判断出该词的重要性。例如名词、动词和疑问词等关键词性通常比较重要,需要留下;介词、连词、助词、叹词和拟声词等副词不表示实际意义,通常也不重要,需要过滤掉;形容词和副词可以根据实际情况灵活的设置是否过滤掉。例如,“我想买一台服务器”,那么“我”、“想”和“一台”这些修饰词不是很重要,这句话的核心是“买服务器”。
可选的,词性的过滤规则也可以设置为其他的规则。
通过词性过滤的方式可以进一步将非核心语义相关的词过滤掉。
参照图4所示,上述方法的一种具体应用可以概述为:从数据源中获取多个非结构化的知识文本;对知识文本进行主体抽取,依次执行中文分词、停用词过滤、核心词抽取(主要依据每个词的权重和词性抽取核心词)和核心句法结构提取;将抽取到的词向量化后再生成句向量,得到向量化数据;通过向量化数据的密度聚类,将知识文本进行分类,并生成每个类的标题;以当前类的标题为新的聚类对象,循环聚类,建立数据源的层级类目。
实施例二
本发明实施例二提供一种文本内容的层级结构调整方法,按照上述文本内容的层级类目构建方法,构建文本内容的层级类目,得到层级类目中的标题与文本内容中的文本单元的对应关系;根据对应关系将文本单元调整为层级结构。其具体实现过程,参照图5所示,包括如下步骤:
针对文本内容中的各文本单元,执行下述步骤S501-步骤S508。
步骤S501:将文本单元进行分词处理。
步骤S502:将得到的词中与预设停用词一致的词过滤掉。
分词后,将诸如“你好”、“请问”和“谢谢”等与句子核心意思关系不大的词语过滤掉,可通过使用领域无关的停用词列表来实现此步骤。
获取到与文本内容相关领域的核心词列表或者词典后,根据获取到的列表或词典将得到的词中与预设停用词一致的词过滤掉。
步骤S503:确定得到的词的权重。
步骤S504:将文本单元中的权重高于预设权重阈值的词确定为备选核心词。
步骤S505:将词性满足预设要求的备选核心词确定为核心词。
例如可以是利用开源分词词库Jieba,得到备选核心词的词性。
步骤S506:将核心词根据句法依存关系进行过滤。
在一个实施例中,可以包括,将文本单元中的核心词按照在文本单元中的出现顺序组成句子,根据句法分析确定核心词在组成的句子中的句法结构,句法结构包括主语、谓语、宾语、定语、状语和补语;将句法结构不符合预设结构要求的核心词过滤掉。例如,可以是将主语、谓语和宾语等关键句法结构的词留下,将定语、状语和补语等修饰补充的句法结构的词过滤掉。
具体的,可以是利用Stanford Parser得到一句话的句法结构。比如输入“他喜欢披萨”,得到的输出会是:“他”是主语,“喜欢”是谓语,“披萨”是宾语,等。
步骤S507:利用Word2Vec模型得到核心词的词特征数据。
步骤S508:将词特征数据输入Sent2Vec模型得到句特征数据。
通过上述步骤S501-步骤S508,得到了每个文本单元核心词组成的句子的句特征数据。
步骤S509:对句特征数据进行聚类,将文本单元划分为多个类。
利用选定的密度聚类算法,确定两两句特征数据之间的余弦相似度,根据余弦相似度将对应的文本单元划分为多个类。
在分类过程中,可能会出现有些句特征数据与多个其他句特征数据之间的余弦相似度都为-1,则将与多个其他句特征数据之间的余弦相似度都为-1的句特征数据对应的文本单元归为1类,为噪点数据,此类数据单独归为一类输出,也不再对此类数据执行后续的步骤。
步骤S510:生成类的标题。
步骤S511:判断当前生成的类是否满足预设的终止聚类条件。
若判断为是,执行步骤S514;若判断为否,执行步骤S512。
步骤S512:根据当前类的标题生成标题特征数据。
步骤S513:将标题特征数据进行聚类得到对应的当前类的上一层级的类,生成上一层级的类的标题。
步骤S513执行完后,继续执行步骤S511,判断当前生成的类是否满足预设的终止条件。
步骤S514:按照所有的标题生成文本内容的类目,得到层级类目中的标题与文本内容中的文本单元的对应关系。
步骤S515:根据对应关系将文本单元调整为层级结构。
参照图6所示,上述方法的一种具体应用可以概述为:从数据源中获取多个知识文本;对知识文本进行主体抽取,主要从两个维度上来抽取,词法上根据词的权重和词性来筛选,句法上根据句法依存关系继续筛选,得到每个知识文本的主体信息;将主体信息中的词向量化后再生成句向量,得到向量化数据;通过向量化数据的密度聚类,将知识文本进行分类,并生成每个类的标题;以当前类的标题为新的聚类对象,循环聚类,建立数据源的层级目录,并得到标题和知识文本的对应关系,将知识文本调整为层级结构,每个知识文本对应一个最低层级的知识节点。
基于本发明的发明构思,本发明实施例还提供一种文本内容的层级类目构建装置,其结构如图7所示,包括:
抽取模块71,用于抽取文本内容中文本单元的核心词,根据所述核心词的词特征数据生成句特征数据;
聚类模块72,用于对所述抽取模块71得到的句特征数据进行聚类,将文本单元划分为多个类;
第一生成模块73,用于生成所述聚类模块得到的类的标题;
判断模块74,用于判断所述聚类模块72当前生成的类是否满足预设的终止聚类条件;
当所述判断模块74判断为否时,所述聚类模块72用于将当前类的标题进行聚类得当前类的上一层级的类,所述第一生成模块73用于生成所述上一层级的类的标题,所述判断模块74用于继续执行所述判断当前生成的类是否满足预设的终止条件;
当所述判断模块74判断为否时,第二生成模块75,用于,按照所有的标题生成所述文本内容的类目。
在一个实施例中,抽取模块71,抽取文本内容中文本单元的核心词,具体用于:
针对文本内容中的文本单元,将所述文本单元进行分词处理,确定得到的词的权重;将文本单元中的权重高于预设权重阈值的词确定为备选核心词;将词性满足预设要求的备选核心词确定为核心词。
在一个实施例中,抽取模块71,将词性满足预设要求的备选核心词确定为核心词后,还用于:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子,根据句法分析确定核心词在组成的句子中的句法结构,所述句法结构包括主语、谓语、宾语、定语、状语和补语;将句法结构不符合预设结构要求的核心词过滤掉。
在一个实施例中,抽取模块71,确定得到的词的权重前,还用于:
将得到的词中与预设停用词一致的词过滤掉。
在一个实施例中,聚类模块72,对所述句特征数据进行聚类,将文本单元划分为多个类,具体用于:
利用选定的密度聚类算法,确定两两句特征数据之间的余弦相似度,根据余弦相似度将对应的文本单元划分为多个类;对应的,聚类模块72,将当前类的标题进行聚类得到当前类的上一层级的类,具体用于:
根据当前类的标题生成标题特征数据,利用所述密度聚类算法,确定两两标题特征数据之间的余弦相似度,根据余弦相似度将对应的标题划分为至少一个类,作为该标题对应的类的上一层级的类。
在一个实施例中,第一生成模块73,生成类的标题,具体用于:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;确定类对应的句子中的核心词在该类中出现的频率,将预设个数的频率最高的核心词确定为标题词;确定标题词在对应的句子中的平均出现次序,将标题词按照所述平均出现次序组成标题。
在一个实施例中,第一生成模块73,生成类的标题,具体用于:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;利用预先训练好的生成式模型,根据类对应的句子生成类的标题。
在一个实施例中,判断模块74,判断当前生成的类是否满足预设的终止聚类条件,包括用于执行下述至少一项:
判断当前生成的类的个数是否为1;
判断当前生成的类的个数是否等于当前生成的类的下一层级类的个数;
判断当前所有类的层级数是否等于预设层级数。
基于本发明的发明构思,本发明实施例还提供一种文本内容的层级结构调整装置,其结构如图8所示,包括层级类目构建模块81和层级结构调整模块82;
所述层级类目构建模块81,用于按照上述文本内容的层级类目构建方法,构建文本内容的层级类目,得到所述层级类目中的标题与所述文本内容中的文本单元的对应关系;
所述层级结构调整模块82,用于根据所述层级类目构建模块81得到的对应关系将文本单元调整为层级结构。
基于本发明的发明构思,本发明实施例还提供一种客服系统,参照图9所示,包括服务器91和多个客户端92;
所述服务器91用于将从所述客户端接收到的提问文本,按照上述文本内容的层级类目构建方法,构建提问文本的层级类目,得到所述层级类目中的标题与所述提问文本的对应关系;根据所述对应关系将提问文本调整为层级结构。
关于上述实施例中的装置和系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,当该指令被处理器执行时实现上述文本内容的层级类目构建方法,或实现上述文本内容的层级结构调整方法。
除非另外具体陈述,术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程,所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
Claims (13)
1.一种文本内容的层级类目构建方法,其中,包括:
抽取文本内容中文本单元的核心词,根据所述核心词的词特征数据生成句特征数据;
对所述句特征数据进行聚类,将文本单元划分为多个类,生成类的标题;
当前生成的类不满足预设的终止聚类条件时,将当前类的标题进行聚类得到当前类的上一层级的类,生成所述上一层级的类的标题;
按照所有的标题生成所述文本内容的类目。
2.如权利要求1所述的方法,其中,所述抽取文本内容中文本单元的核心词,具体包括:
针对文本内容中的文本单元,将所述文本单元进行分词处理,确定得到的词的权重;
将文本单元中的权重高于预设权重阈值的词确定为备选核心词;
将词性满足预设要求的备选核心词确定为核心词。
3.如权利要求2所述的方法,其中,所述将词性满足预设要求的备选核心词确定为核心词后,还包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子,根据句法分析确定核心词在组成的句子中的句法结构,所述句法结构包括主语、谓语、宾语、定语、状语和补语;
将句法结构不符合预设结构要求的核心词过滤掉。
4.如权利要求2或3所述的方法,其中,所述确定得到的词的权重前,还包括:
将得到的词中与预设停用词一致的词过滤掉。
5.如权利要求1所述的方法,其中,所述对所述句特征数据进行聚类,将文本单元划分为多个类,具体包括:
利用选定的密度聚类算法,确定两两句特征数据之间的余弦相似度,根据余弦相似度将对应的文本单元划分为多个类;对应的,所述将当前类的标题进行聚类得到当前类的上一层级的类,具体包括:
根据当前类的标题生成标题特征数据,利用所述密度聚类算法,确定两两标题特征数据之间的余弦相似度,根据余弦相似度将对应的标题划分为至少一个类,作为该标题对应的类的上一层级的类。
6.如权利要求1所述的方法,其中,所述生成类的标题,具体包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;
确定类对应的句子中的核心词在该类中出现的频率,将预设个数的频率最高的核心词确定为标题词;
确定标题词在对应的句子中的平均出现次序,将标题词按照所述平均出现次序组成标题。
7.如权利要求1所述的方法,其中,所述生成类的标题,具体包括:
将文本单元中的核心词按照在所述文本单元中的出现顺序组成句子;
利用预先训练好的生成式模型,根据类对应的句子生成类的标题。
8.如权利要求1-3和5-7任一所述的方法,其中,判断当前生成的类是否满足预设的终止聚类条件,包括执行下述至少一项:
判断当前生成的类的个数是否为1;
判断当前生成的类的个数是否等于当前生成的类的下一层级类的个数;
判断当前所有类的层级数是否等于预设层级数。
9.一种文本内容的层级结构调整方法,其中,包括:
按照权利要求1-8任一所述的方法,构建文本内容的层级类目,得到所述层级类目中的标题与所述文本内容中的文本单元的对应关系;
根据所述对应关系将文本单元调整为层级结构。
10.一种文本内容的层级类目构建装置,其中,包括:
抽取模块,用于抽取文本内容中文本单元的核心词,根据所述核心词的词特征数据生成句特征数据;
聚类模块,用于对所述抽取模块得到的句特征数据进行聚类,将文本单元划分为多个类;
第一生成模块,用于生成所述聚类模块得到的类的标题;
判断模块,用于判断所述聚类模块当前生成的类是否满足预设的终止聚类条件;
当所述判断模块判断为否时,所述聚类模块用于将当前类的标题进行聚类得到当前类的上一层级的类,所述第一生成模块用于生成所述上一层级的类的标题,所述判断模块用于继续执行所述判断当前生成的类是否满足预设的终止条件;
第二生成模块,用于当所述判断模块判断为否时,按照所有的标题生成所述文本内容的类目。
11.一种文本内容的层级结构调整装置,其中,包括层级类目构建模块和层级结构调整模块;
所述层级类目构建模块,用于按照权利要求1-8任一所述的方法,构建文本内容的层级类目,得到所述层级类目中的标题与所述文本内容中的文本单元的对应关系;
所述层级结构调整模块,用于根据所述层级类目构建模块得到的对应关系将文本单元调整为层级结构。
12.一种客服系统,其中,包括服务器和多个客户端;
所述服务器用于将从所述客户端接收到的提问文本,按照权利要求1-8任一所述的方法,构建提问文本的层级类目,得到所述层级类目中的标题与所述提问文本的对应关系;根据所述对应关系将提问文本调整为层级结构。
13.一种计算机可读存储介质,其上存储有计算机指令,其中,当该指令被处理器执行时实现权利要求1-8任一所述的文本内容的层级类目构建方法,或实现权力要求9所述的文本内容的层级结构调整方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546744.9A CN113806524B (zh) | 2020-06-16 | 一种文本内容的层级类目构建和层级结构调整方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546744.9A CN113806524B (zh) | 2020-06-16 | 一种文本内容的层级类目构建和层级结构调整方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806524A true CN113806524A (zh) | 2021-12-17 |
CN113806524B CN113806524B (zh) | 2024-05-24 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101430708A (zh) * | 2008-11-21 | 2009-05-13 | 哈尔滨工业大学深圳研究生院 | 一种基于标签聚类的博客层次分类树构建方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
WO2015085805A1 (zh) * | 2013-12-11 | 2015-06-18 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN108228787A (zh) * | 2017-12-29 | 2018-06-29 | 上海数据交易中心有限公司 | 按照多级类目处理信息的方法和装置 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110347835A (zh) * | 2019-07-11 | 2019-10-18 | 招商局金融科技有限公司 | 文本聚类方法、电子装置及存储介质 |
CN111046170A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101430708A (zh) * | 2008-11-21 | 2009-05-13 | 哈尔滨工业大学深圳研究生院 | 一种基于标签聚类的博客层次分类树构建方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
WO2015085805A1 (zh) * | 2013-12-11 | 2015-06-18 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN108228787A (zh) * | 2017-12-29 | 2018-06-29 | 上海数据交易中心有限公司 | 按照多级类目处理信息的方法和装置 |
CN111046170A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110347835A (zh) * | 2019-07-11 | 2019-10-18 | 招商局金融科技有限公司 | 文本聚类方法、电子装置及存储介质 |
Non-Patent Citations (5)
Title |
---|
LI D.等: "Hierarchical Clustering for Micro-Learning Units Based on Discovering Cluster Center by LDA", 2018 9TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION (ITME), 27 December 2018 (2018-12-27) * |
刘金岭;: "基于《现代汉语语义分类词典》的文本聚类方法", 情报杂志, no. 11 * |
李勇 等: "复杂情感分析方法及其应用", 29 February 2020, 北京:冶金工业出版社, pages: 59 * |
苏新宁 等: "数据挖掘理论与技术", 30 June 2003, 北京:科学技术文献出版社, pages: 33 * |
葛文镇;刘柏嵩;王洋洋;赵福青;: "基于层级类别信息的标题自动分类研究", 计算机应用研究, no. 07, 29 September 2015 (2015-09-29) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792818A (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
KR102535852B1 (ko) | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 | |
EP2477125A1 (en) | Word pair acquisition device, word pair acquisition method, and program | |
CN113407679B (zh) | 文本主题挖掘方法、装置、电子设备及存储介质 | |
Bosker | Using fuzzy string matching for automated assessment of listener transcripts in speech intelligibility studies | |
CN112464656A (zh) | 关键词抽取方法、装置、电子设备和存储介质 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN113836274A (zh) | 基于语义解析的摘要提取方法、装置、设备及介质 | |
CN110738059A (zh) | 一种文本相似度计算方法及系统 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN109284392B (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN113806524B (zh) | 一种文本内容的层级类目构建和层级结构调整方法及装置 | |
Powers | Unsupervised learning of linguistic structure: an empirical evaluation | |
Zhang et al. | Combining the attention network and semantic representation for Chinese verb metaphor identification | |
CN113806524A (zh) | 一种文本内容的层级类目构建和层级结构调整方法及装置 | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 | |
Serban et al. | Text-based speaker identification for multi-participant opendomain dialogue systems | |
Su et al. | Automatic ontology population using deep learning for triple extraction | |
CN114330296A (zh) | 新词发现方法、装置、设备以及存储介质 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN117648917B (zh) | 一种版式文件对比方法及系统 | |
Dong et al. | End-to-end topic classification without asr |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40062865 Country of ref document: HK |
|
GR01 | Patent grant |