CN113486664A - 文本数据可视化分析方法、装置、设备及存储介质 - Google Patents

文本数据可视化分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113486664A
CN113486664A CN202110843645.1A CN202110843645A CN113486664A CN 113486664 A CN113486664 A CN 113486664A CN 202110843645 A CN202110843645 A CN 202110843645A CN 113486664 A CN113486664 A CN 113486664A
Authority
CN
China
Prior art keywords
text data
keywords
clustering
processed
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110843645.1A
Other languages
English (en)
Inventor
张冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110843645.1A priority Critical patent/CN113486664A/zh
Publication of CN113486664A publication Critical patent/CN113486664A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术,揭露了文本数据可视化分析方法、装置、设备及存储介质,包括获取多个待处理文本数据;对多个待处理文本数据进行关键词提取,得到待处理文本数据对应的关键词和权重;根据多个待处理文本数据以及对应的关键词和权重,利用可视化工具进行可视化展示,得到散点图;根据散点图,利用DBscan聚类模型进行聚类,得到聚类簇;基于各聚类簇,提取对应的关键词和待处理文本数据,得到聚类关键词和聚类文本数据;通过匹配模型对聚类关键词进行匹配,最终实现将各聚类文本数据连接起来,以构建知识图谱。本申请还涉及区块链技术,知识图谱存储于区块链中。本申请能提高处理效率的同时,还能去除噪音数据。

Description

文本数据可视化分析方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及文本数据可视化分析方法、装置、设备及存储介质。
背景技术
在当今信息时代的背景下,获取信息的渠道多种多样,如道听途说,网上收集,实地考察等等,然而获取的信息量也是非常巨大的,然而从大量的信息中,归纳整理出有用的信息,就变的很困难,而且耗时耗力;在现有的数据筛选分析技术中,有通过人工将数据录入excel文档中,然后通过人工进行分析;也有利用模型进行文本数据关键词提取,来分析的,但对于上述方案,都存在筛选分析的效率不高,以及对于文本数据中的噪音数据无法去除的问题。因此,如何在提高筛选分析效率的前提下,对所述文本数据中噪音数据进行去除成为了亟待解决的问题。
发明内容
本申请提供了文本数据可视化分析方法、装置、设备及存储介质,以解决现有技术中筛选分析效率不高,且对文本数据中的噪音数据无法去除的问题。
为解决上述问题,本申请提供了文本数据可视化分析方法,包括:
获取多个待处理文本数据;
对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
进一步的,所述获取多个待处理文本数据包括:
向数据库发送调用请求,所述调用请求携带验签令牌;
接收所述数据库返回的验签结果,并在验签结果为通过时,调用所述数据库中的文本数据,从而获取到所述多个待处理文本数据。
进一步的,所述对多个所述待处理文本数据进行关键词提取处理包括:
利用结巴分词对所述待处理文本数据进行分词处理以及停用词去除,得到对应的多个字词;
利用TF-IDF算法对所述多个字词进行关键词提取,并得到所述关键词对应的所述权重。
进一步的,所述利用结巴分词对所述待处理文本数据进行分词处理包括:
基于预设的Trie树扫描所述文本数据,识别所述文本数据中字词的多种切分组合;
基于识别到的所有切分组合构建有向无环图,利用所述有向无环图进行动态规划查找最大概率路径,确定最大概率的切分组合,基于所述最大概率的切分组合对待处理语句进行切词;
对于未被识别出的字词,采用隐马尔可夫模型进行切分。
进一步的,所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重包括:
获取所述待处理数据中各文档中第一字词出现的次数与字词总数目,通过将所述第一字词出现的次数除以所述字词总数目得到第一字词的词频;
获取所述待处理数据中文档的总数目以及出现第一字词的文档数,根据所述文档的总数目和所述出现第一字词的文档数,计算所述第一字词的逆文档频率;
将所述第一字词对应的词频与逆文档频率相乘,得到所述第一字词的权重;
提取所述权重大于预设数值的第一字词,作为所述关键词,得到所述关键词及其对应的权重。
进一步的,在所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重之后,还包括:
根据所述关键词对应的权重,对所述关键词进行排序;
基于所述排序结果,提取前预设个数的关键词。
进一步的,在所述利用DBscan聚类模型进行聚类分析,得到聚类簇之后,还包括:
利用KMeans模型,对各所述聚类簇进行处理,得到中心点数据;
基于所述中心点数据,输出对应的所述关键词及其权重。
为了解决上述问题,本申请还提供文本数据可视化分析装置,所述装置包括:
获取模块,用于获取多个待处理文本数据;
量化模块,用于对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
可视化模块,用于根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
聚类模块,用于根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
提取模块,用于基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
构建模块,用于以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
为了解决上述问题,本申请还提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述所述的文本数据可视化分析方法。
为了解决上述问题,本申请还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的文本数据可视化分析方法。
根据本申请实施例提供的文本数据可视化分析方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:
通过获取到多个待处理文本数据,并对所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重,即获取到文本数据的属性;根据所述待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图,散点图中的各点与文本数据一一对应,进行可视化表示,再进一步利用DBscan聚类模型进行聚类分析,得到聚类簇,去除差异性较大的文本数据,即噪音数据去除,并实时展示,提取聚类簇中的所述关键词和待处理文本数据,得到聚类关键词和聚类关键词,实现对数据的筛选,最后根据所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构成知识图谱,使得最终得到的知识图谱各节点的关联性较高,并且提高了数据分析的效率,以及最终得到的知识图谱,能使用户更高效的掌握信息。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的文本数据可视化分析方法的流程示意图;
图2为本申请一实施例提供的有向无环图;
图3为本申请一实施例提供的文本数据可视化分析装置的模块示意图;
图4为本申请一实施例的计算机设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供一种文本数据可视化分析方法。参照图1所示,为本申请一实施例提供的文本数据可视化分析方法的流程示意图。
在本实施例中,文本数据可视化分析方法包括:
S1、获取多个待处理文本数据;
在本申请中,可通过直接接收用户输入的待处理文本数据,或从数据库中提取待处理文本数据。所述待处理文本数据包括但不限于用户的日常产生文本数据等,通过对多个用户的日常产生的文本数据进行分析,从而得到多个用户的共性属性,从而利于有关人员进行分析。
进一步的,所述获取多个待处理文本数据包括:
向数据库发送调用请求,所述调用请求携带验签令牌;
接收所述数据库返回的验签结果,并在验签结果为通过时,调用所述数据库中的文本数据,从而获取到所述多个待处理文本数据。
具体的,由于多个待处理文本数据,可能会涉及用户或公司的隐私数据,所以对于待处理文本数据都会保存至预设数据库中,所以在获取待处理文本数据时,数据库会进行验签步骤,以保证数据的安全,避免泄露数据等问题。
通过进行验签的方式能保证数据库中的内容的安全性,避免用户隐私,即文本数据等泄露。
S2、对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
具体的,通过对所述待处理文本数据进行关键词提取处理,得到各待处理文本数据对应的关键词及其权重,实现对待处理文本数据属性的提取。
进一步的,所述对多个所述待处理文本数据进行关键词提取处理包括:
利用结巴分词对所述待处理文本数据进行分词处理以及停用词去除,得到对应的多个字词;
利用TF-IDF算法对所述多个字词进行关键词提取,并得到所述关键词对应的所述权重。
具体的,所述结巴分词支持三种切词模式;精确模式,将语句最精确的分开;全模式,把句子中所有的可以成词的词语都扫描出来;搜索引擎模式,在精确模式的基础上,对长词再次进行切分。在本申请中使用的是精确模式的结巴分词,便于将待处理语句精确的分开。
TF-IDF算法是一种统计的方法,用来评估一个词语在一份语料库中对于其中一份文件的重要程度。词语的重要性会随着它在该文件中出现的次数而增加,但是也会同时随着它在语料库中其他文件出现的次数而减少。
在本申请中直接利用的python中的结巴工具包,通过导入这一结巴工具包,就可以处理每一条输入进来的待处理文本数据进行切分,实现待处理文本数据的切词处理。
例如,将“勘察之后的流程是定损”利用结巴分词的精确模式进行切词处理后将得到“勘察/之后/的/流程/是/定损”这样的字词。
并且在切分后,通过结巴分词,并利用现有的停用词库,对切分后的词语进行停用词去除,具体的,通过将切分后的词语依次在停用词库中进行查询,若查询到,则将对应的词语进行去除,从而实现对停用词进行去除。
通过利用结巴分词将文本数据拆分为多个独立的词语,便于后续关键词的提取,并对各待处理文本切分后得到的字词进行关键词提取,并得到对应的权重,实现提取待处理文本的属性。
再进一步的,所述利用结巴分词对所述待处理文本数据进行分词处理包括:
基于预设的Trie树扫描所述文本数据,识别所述文本数据中字词的多种切分组合;
基于识别到的所有切分组合构建有向无环图,利用所述有向无环图进行动态规划查找最大概率路径,确定最大概率的切分组合,基于所述最大概率的切分组合对待处理语句进行切词;
对于未被识别出的字词,采用隐马尔可夫模型进行切分。
具体的,Trie树又叫字典树,是一种常见的数据结构,也是一种前缀树,用于在一个字符串列表中进行快速的字符串匹配。基于预设的Trie树扫描所述待处理语句,识别出所述待处理语句中字词的多种切分组合,就将待处理语句与Trie树进行扫描匹配,生成字词的多种切分组合。将多种切分组合构成有向无环图,在有向无环图中每个节点即切分后的字词。
如图2所示,示出了一有向无环图,将“去北京大学玩”这句话进行了切分,分为去/北/京/大/学/玩,去/北京/大/学/玩,去/北京/大学/玩,去/北京大学/玩,去/北/京/大学/玩五种切分组合,将这五种切分组合构成有向无环图。所述弧形箭头表示将将弧形箭头起点与终点之间的字词组合在一起。而横向箭头可以代表将字词切分。
随后利用所述有向无环图进行动态规划查找最大概率路径,在利用词典生成Trie树时,将每个词出现的次数转换为频率。对于给出的多种切分组合,对各切分组合查找该切分组合出现的频率,即有向无环图中每个节点的概率,计算最大概率路径的主函数是calc,函数根据构建好的有向无环图计算最大概率路径。所述函数calc是一个自底向上的动态规划,它从待处理语句的最后一个字词开始倒序遍历待处理语句的每个字词的方式,计算待处理语句各切分组合的概率对数得分。然后将概率对数得分最高的情况以这样的切分组合方式保存并输出。即得到概率最大的切分组合,并基于该切分组合对待处理语句进行切分。
并且由于词典的局限性,不能包含所有的字词,所以对未在词典中出现过的字词,将采用隐马尔可夫模型进行切分,隐马尔可夫模型将中文词汇按照BEMS四个状态来进行标记,B是指开始位置,E是指结束位置,M是指中间位置,S是指单独成词的位置,结巴分析采用上述四种状态来标记中文词语,例如北京可以标注为BE,即北/B京/E,即北为开始位置,京为结束位置,来进行拆分。通过上述的方式对待处理语句进行切分,能得到最接近真实情况的切分组合。
通过采用上述的方式对待处理语句进行切分,能得到最接近真实情况的切分组合。
进一步的,所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重包括:
获取所述待处理数据中各文档中第一字词出现的次数与字词总数目,通过将所述第一字词出现的次数除以所述字词总数目得到第一字词的词频;
获取所述待处理数据中文档的总数目以及出现第一字词的文档数,根据所述文档的总数目和所述出现第一字词的文档数,计算所述第一字词的逆文档频率;
将所述第一字词对应的词频与逆文档频率相乘,得到所述第一字词的权重;
提取所述权重大于预设数值的第一字词,作为所述关键词,得到所述关键词及其对应的权重。
具体的,根据第一字词的词频与逆文档频率,得到第一字词对应的权重,其中所述逆文档频率为待处理数据中文档的总数目除以(所述出现第一字词的文档数+1),得到第一数值,随后对第一数值取对数,即得到第一字词对应的权重;
通过将权重与预设数值进行判断,获取大于预设数值的权重及其对应的第一字词,作为所述关键词。
再进一步的,在所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重之后,还包括:
根据所述关键词对应的权重,对所述关键词进行排序;
基于所述排序结果,提取前预设个数的关键词。
具体的,由于通过TF-IDF算法将会得到多个关键词,且不同的待处理文本数据可能得到的关键词数量不一致。所以通过将各待处理文本数据对应的关键词以降序排序,提取前预设个数的关键词,实现各待处理文本数据的关键词数量保持一致,即属性维度一致。
在本申请中,所述预设个数可为4。
通过将各文本数据的属性维度进行统一,利于后续利用可视化工具进行可视化展示。
S3、根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
通过利用现有的可视化工具,例如echarts,datav等可视化工具,对待处理文本数据进行可视化展示,得到对应的散点图。
将所述待处理文本数据作为一个点来表示,其对应的关键词及其权重作为其属性,所述echarts,datav等可视化工具根据所述属性将待处理文本数据进行可视化展示。
S4、根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
在得到散点图后,利用DBscan聚类模型进行聚类,得到聚类簇,所述DBscan为无监督学习算法,实现找到散点图中的抱团属性等,剔除离散点,避免噪音数据干扰。
DBscan聚类模型是一种基于密度的聚类算法,这类基于密度的聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间紧密相连。通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(∈,MinPts)用来描述邻域的样本分布紧密程度。其中,∈描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值。
进一步的,在所述利用DBscan聚类模型进行聚类分析,得到聚类簇之后,还包括:
利用KMeans模型,对各所述聚类簇进行处理,得到中心点数据;
基于所述中心点数据,输出对应的所述关键词及其权重。
具体的,通过利用KMeans模型对散点图中的各聚类簇进行处理,具体的取K=1,得到各聚类簇的中心点数据,基于所述中心点数据,输出对应所述中心点的文本数据及其对应的关键词。各聚类簇的中心点数据能充分表明该聚类簇的特征,所以提取出中心点数据对应的关键词以作为聚类簇的特征属性。
KMeans聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
通过对各聚类簇再利用KMeans模型进行中心点数据获取,得到中心点数据对应的文本数据及其关键词,所述中心点数据对应的关键词即可作为聚类簇的特征属性,提高了聚类簇数据特征的清晰度。
S5、基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
在得到散点图中的各聚类簇后,提取聚类簇中各点对应的待处理文本数据和所述关键词,所述各点与待处理文本数据和关键词呈对应关系,获取到散点图中的各点,即可得到对应的文本数据和关键词,从而最终得到聚类关键词和聚类文本数据。
通过只提取聚类簇的数据,将聚类簇之外的离散数据进行去除,使得后续得到的知识图谱各节点间的关联性更强。并且去除离散数据即去除噪音数据,避免噪音数据对后续流程造成不良影响。并且提高后续处理的处理效率。
S6、以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
具体的,以各聚类文本数据为节点,在实际中直接以一个点表示,并对各点进行区分,而其对应的聚类关键词作为属性,根据所述聚类关键词来判断两两聚类文本数据是否进行连接。
通过利用预训练的匹配模型,得到两个聚类文本数据对应的各聚类关键词间的相似度,根据所述相似度与预设数值进行比较判断,若所述相似度大于所述预设数值,则将两个所述聚类文本数据进行串联,即进行连接,若所述两个聚类文本数据中有多个聚类关键词之间的相似度大于预设数值,当数量越多,所述两个聚类文本数据在整个知识图谱中,两者的距离越近;反之,所述相似度小于所述预设数值,则不对所述两个聚类文本数据进行连接。当通过将所有聚类文本数据对应的聚类关键词,进行两两计算,在都计算完成后,形成一知识图谱。构建成知识图谱能更清楚的展示数据,以及数据之间的关联,能使用户更高效的掌握信息。
通过利用CNN-DSSM模型进行训练,得到匹配模型,所述CNN-DSSM模型为一种语义匹配模型。
需要强调的是,为了进一步保证数据的私密性和安全性,所述知识图谱的所有数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
通过获取到多个待处理文本数据,并对所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重,即获取到文本数据的属性;根据所述待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图,散点图中的各点与文本数据一一对应,进行可视化表示,再进一步利用DBscan聚类模型进行聚类分析,得到聚类簇,去除差异性较大的文本数据,即噪音数据去除,并实时展示,提取聚类簇中的所述关键词和待处理文本数据,得到聚类关键词和聚类关键词,实现对数据的筛选,最后根据所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构成知识图谱,使得最终得到的知识图谱各节点的关联性较高,并且提高了数据分析的效率,以及最终得到的知识图谱,能使用户更高效的掌握信息。
如图3所示,是本申请文本数据可视化分析装置的功能模块图。
本申请所述文本数据可视化分析装置100可以安装于电子设备中。根据实现的功能,所述文本数据可视化分析装置100可以包括获取模块101、量化模块102、可视化模块103、聚类模块104、提取模块105和构建模块106。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块101,用于获取多个待处理文本数据;
进一步的,所述获取模块101包括请求发送子模块和调用子模块;
所述请求发送子模块,用于向数据库发送调用请求,所述调用请求携带验签令牌;
所述调用子模块,用于接收所述数据库返回的验签结果,并在验签结果为通过时,调用所述数据库中的文本数据,从而获取到所述多个待处理文本数据。
通过请求发送子模块和调用子模块的配合进行验签的方式能保证数据库中的内容的安全性,避免用户隐私,即文本数据等泄露。
量化模块102,用于对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
进一步的,所述量化模块102包括结巴分词处理子模块和关键词提取子模块;
所述结巴分词处理子模块,用于利用结巴分词对所述待处理文本数据进行分词处理以及停用词去除,得到对应的多个字词;
所述关键词提取子模块,用于利用TF-IDF算法对所述多个字词进行关键词提取,并得到所述关键词对应的所述权重。
通过关键词提取子模块对各待处理文本切分后得到的字词进行关键词提取,并得到对应的权重,实现提取待处理文本的属性。
结巴分词处理子模块通过直接利用的python中的结巴工具包,通过导入这一结巴工具包,就可以处理每一条输入进来的待处理文本数据进行切分,实现待处理文本数据的切词处理。
通过结巴分词处理子模块利用结巴分词将文本数据拆分为多个独立的词语,便于后续关键词的提取。
再进一步的,结巴分词处理子模块还包括Trie树单元、动态规划单元和隐马尔可夫单元;
所述Trie树单元,用于基于预设的Trie树扫描所述文本数据,识别所述文本数据中字词的多种切分组合;
所述动态规划单元,用于基于识别到的所有切分组合构建有向无环图,利用所述有向无环图进行动态规划查找最大概率路径,确定最大概率的切分组合,基于所述最大概率的切分组合对待处理语句进行切词;
所述隐马尔可夫单元,用于对于未被识别出的字词,采用隐马尔可夫模型进行切分。
通过Trie树单元、动态规划单元和隐马尔可夫单元的配合,对待处理语句进行切分,能得到最接近真实情况的切分组合。
进一步的,所述关键词提取子模块还包括词频计算单元、逆文档频率计算单元、权重计算单元和判断单元;
词频计算单元,用于获取所述待处理数据中各文档中第一字词出现的次数与字词总数目,通过将所述第一字词出现的次数除以所述字词总数目得到第一字词的词频;
逆文档频率计算单元,用于获取所述待处理数据中文档的总数目以及出现第一字词的文档数,根据所述文档的总数目和所述出现第一字词的文档数,计算所述第一字词的逆文档频率;
权重计算单元,用于将所述第一字词对应的词频与逆文档频率相乘,得到所述第一字词的权重;
判断单元,用于提取所述权重大于预设数值的第一字词,作为所述关键词,得到所述关键词及其对应的权重。
再进一步的,所述量化模块102还包括排序子模块和排序提取子模块;
所述排序子模块,用于根据所述关键词对应的权重,对所述关键词进行排序;
所述排序提取子模块,用于基于所述排序结果,提取前预设个数的关键词。
具体的,由于通过TF-IDF算法将会得到多个关键词,且不同的待处理文本数据可能得到的关键词数量不一致。所以通过排序子模块将各待处理文本数据对应的关键词以降序排序,利用关键词提取子模块提取前预设个数的关键词,实现各待处理文本数据的关键词数量保持一致,即属性维度一致。
通过排序子模块和排序提取子模块的配合将各文本数据的属性维度进行统一,利于后续利用可视化工具进行可视化展示。
可视化模块103,用于根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
聚类模块104,用于根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
进一步的,所述文本数据可视化分析装置100还包括中心点提取模块和输出模块;
所述中心点提取模块,用于利用KMeans模型,对各所述聚类簇进行处理,得到中心点数据;
所述输出模块,用于基于所述中心点数据,输出对应的所述关键词及其权重。
具体的,中心点提取模块通过利用KMeans模型对散点图中的各聚类簇进行处理,具体的取K=1,得到各聚类簇的中心点数据,所述输出模块基于所述中心点数据,输出对应所述中心点的文本数据及其对应的关键词。
提取模块105,用于基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
具体的,提取模块105在得到散点图中的各聚类簇后,提取聚类簇中各点对应的待处理文本数据和所述关键词,所述各点与待处理文本数据和关键词呈对应关系,获取到散点图中的各点,即可得到对应的文本数据和关键词,从而最终得到聚类关键词和聚类文本数据。
通过中心点提取模块和输出模块的配合,对各聚类簇再利用KMeans模型进行中心点数据获取,得到中心点数据对应的文本数据及其关键词,所述中心点数据对应的关键词即可作为聚类簇的特征属性,提高了聚类簇数据特征的清晰度。
构建模块106,用于以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
具体的,构建模块106以各聚类文本数据为节点,在实际中直接以一个点表示,并对各点进行区分,而其对应的聚类关键词作为属性,根据所述聚类关键词来判断两两聚类文本数据是否进行连接。
构建模块106通过利用预训练的匹配模型,得到两个聚类文本数据对应的各聚类关键词间的相似度,根据所述相似度与预设数值进行比较判断,若所述相似度大于所述预设数值,则将两个所述聚类文本数据进行串联,即进行连接,若所述两个聚类文本数据中有多个聚类关键词之间的相似度大于预设数值,当数量越多,所述两个聚类文本数据在整个知识图谱中,两者的距离越近;反之,所述相似度小于所述预设数值,则不对所述两个聚类文本数据进行连接。当通过将所有聚类文本数据对应的聚类关键词,进行两两计算,在都计算完成后,形成一知识图谱。
通过采用上述装置,所述文本数据可视化分析装置100通过获取模块101、量化模块102、可视化模块103、聚类模块104、提取模块105和构建模块106的配合使用,使得在提高数据分析效率的同时,去除了差异性较大的文本数据,使最终得到的知识图谱各节点间的关联性较高,知识图谱的各节点间的关系更清晰,能使用户更高效的掌握信息
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如文本数据可视化分析方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述文本数据可视化分析方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例文本数据可视化分析方法的步骤,通过获取到多个待处理文本数据,并对所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重,即获取到文本数据的属性;根据所述待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图,散点图中的各点与文本数据一一对应,进行可视化表示,再进一步利用DBscan聚类模型进行聚类分析,得到聚类簇,去除差异性较大的文本数据,即噪音数据去除,并实时展示,提取聚类簇中的所述关键词和待处理文本数据,得到聚类关键词和聚类关键词,实现对数据的筛选,最后根据所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构成知识图谱,使得最终得到的知识图谱各节点的关联性较高,并且提高了数据分析的效率,以及最终得到的知识图谱,能使用户更高效的掌握信息。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文本数据可视化分析方法的步骤,通过获取到多个待处理文本数据,并对所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重,即获取到文本数据的属性;根据所述待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图,散点图中的各点与文本数据一一对应,进行可视化表示,再进一步利用DBscan聚类模型进行聚类分析,得到聚类簇,去除差异性较大的文本数据,即噪音数据去除,并实时展示,提取聚类簇中的所述关键词和待处理文本数据,得到聚类关键词和聚类关键词,实现对数据的筛选,最后根据所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构成知识图谱,使得最终得到的知识图谱各节点的关联性较高,并且提高了数据分析的效率,以及最终得到的知识图谱,能使用户更高效的掌握信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种文本数据可视化分析方法,其特征在于,所述方法包括:
获取多个待处理文本数据;
对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
2.根据权利要求1所述的文本数据可视化分析方法,其特征在于,所述获取多个待处理文本数据包括:
向数据库发送调用请求,所述调用请求携带验签令牌;
接收所述数据库返回的验签结果,并在验签结果为通过时,调用所述数据库中的文本数据,从而获取到所述多个待处理文本数据。
3.根据权利要求1所述的文本数据可视化分析方法,其特征在于,所述对多个所述待处理文本数据进行关键词提取处理包括:
利用结巴分词对所述待处理文本数据进行分词处理以及停用词去除,得到对应的多个字词;
利用TF-IDF算法对所述多个字词进行关键词提取,并得到所述关键词对应的所述权重。
4.根据权利要求3所述的文本数据可视化分析方法,其特征在于,所述利用结巴分词对所述待处理文本数据进行分词处理包括:
基于预设的Trie树扫描所述文本数据,识别所述文本数据中字词的多种切分组合;
基于识别到的所有切分组合构建有向无环图,利用所述有向无环图进行动态规划查找最大概率路径,确定最大概率的切分组合,基于所述最大概率的切分组合对待处理语句进行切词;
对于未被识别出的字词,采用隐马尔可夫模型进行切分。
5.根据权利要求3所述的文本数据可视化分析方法,其特征在于,所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重包括:
获取所述待处理数据中各文档中第一字词出现的次数与字词总数目,通过将所述第一字词出现的次数除以所述字词总数目得到第一字词的词频;
获取所述待处理数据中文档的总数目以及出现第一字词的文档数,根据所述文档的总数目和所述出现第一字词的文档数,计算所述第一字词的逆文档频率;
将所述第一字词对应的词频与逆文档频率相乘,得到所述第一字词的权重;
提取所述权重大于预设数值的第一字词,作为所述关键词,得到所述关键词及其对应的权重。
6.根据权利要求5所述的文本数据可视化分析方法,其特征在于,在所述利用TF-IDF算法对所述多个字词进行关键词提取,并得到对应的所述权重之后,还包括:
根据所述关键词对应的权重,对所述关键词进行排序;
基于所述排序结果,提取前预设个数的关键词。
7.根据权利要求1至6中任一项所述的文本数据可视化分析方法,其特征在于,在所述利用DBscan聚类模型进行聚类分析,得到聚类簇之后,还包括:
利用KMeans模型,对各所述聚类簇进行处理,得到中心点数据;
基于所述中心点数据,输出对应的所述关键词及其权重。
8.一种文本数据可视化分析装置,其特征在于,所述装置包括:
获取模块,用于获取多个待处理文本数据;
量化模块,用于对多个所述待处理文本数据进行关键词提取处理,得到所述待处理文本数据对应的关键词及其权重;
可视化模块,用于根据所述多个待处理文本数据以及对应的所述关键词及其权重,利用可视化工具进行可视化展示,得到散点图;
聚类模块,用于根据所述散点图,利用DBscan聚类模型进行聚类分析,得到聚类簇;
提取模块,用于基于各所述聚类簇,提取对应的所述关键词和待处理文本数据,得到聚类关键词和聚类文本数据;
构建模块,用于以所述聚类文本数据为节点,所述聚类关键词为属性,通过预训练的匹配模型,对不同所述聚类文本数据对应的所述聚类关键词进行匹配,若所述聚类关键词匹配成功,则将对应的所述聚类文本数据进行连接,以构建知识图谱。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一所述的文本数据可视化分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一所述的文本数据可视化分析方法。
CN202110843645.1A 2021-07-26 2021-07-26 文本数据可视化分析方法、装置、设备及存储介质 Pending CN113486664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843645.1A CN113486664A (zh) 2021-07-26 2021-07-26 文本数据可视化分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843645.1A CN113486664A (zh) 2021-07-26 2021-07-26 文本数据可视化分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113486664A true CN113486664A (zh) 2021-10-08

Family

ID=77942620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843645.1A Pending CN113486664A (zh) 2021-07-26 2021-07-26 文本数据可视化分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113486664A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114486330A (zh) * 2022-01-25 2022-05-13 吴凤萍 一种地质勘探智能取样系统
CN114707024A (zh) * 2022-03-31 2022-07-05 远景智能国际私人投资有限公司 有向无环图的生成方法、装置、设备及介质
CN114998920A (zh) * 2022-06-27 2022-09-02 北京智慧金源供应链管理有限公司 基于nlp语义识别的供应链金融文件管理方法及系统
CN116340504A (zh) * 2023-03-23 2023-06-27 深圳市申甲网格科技有限公司 一种实现预案数字化可视化的一种方法
CN117573801A (zh) * 2023-11-02 2024-02-20 北京赛西科技发展有限责任公司 针对标准文件的可视化建模方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114486330A (zh) * 2022-01-25 2022-05-13 吴凤萍 一种地质勘探智能取样系统
CN114486330B (zh) * 2022-01-25 2024-05-10 吴凤萍 一种地质勘探智能取样系统
CN114707024A (zh) * 2022-03-31 2022-07-05 远景智能国际私人投资有限公司 有向无环图的生成方法、装置、设备及介质
CN114998920A (zh) * 2022-06-27 2022-09-02 北京智慧金源供应链管理有限公司 基于nlp语义识别的供应链金融文件管理方法及系统
CN114998920B (zh) * 2022-06-27 2023-04-07 北京智慧金源信息科技有限公司 基于nlp语义识别的供应链金融文件管理方法及系统
CN116340504A (zh) * 2023-03-23 2023-06-27 深圳市申甲网格科技有限公司 一种实现预案数字化可视化的一种方法
CN117573801A (zh) * 2023-11-02 2024-02-20 北京赛西科技发展有限责任公司 针对标准文件的可视化建模方法及装置

Similar Documents

Publication Publication Date Title
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
CN105279277A (zh) 知识数据的处理方法和装置
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN108090216A (zh) 一种标签预测方法、装置及存储介质
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN113869398A (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN115759085A (zh) 基于提示模型的信息预测方法、装置、电子设备及介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination