CN113010643B - 佛学领域词汇的处理方法、装置、设备及存储介质 - Google Patents
佛学领域词汇的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113010643B CN113010643B CN202110301853.9A CN202110301853A CN113010643B CN 113010643 B CN113010643 B CN 113010643B CN 202110301853 A CN202110301853 A CN 202110301853A CN 113010643 B CN113010643 B CN 113010643B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- target
- domain
- buddha
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种佛学领域词汇的处理方法、装置、设备及存储介质,用于对佛学领域词汇进行词汇挖掘处理的准确性。佛学领域词汇的处理方法包括:对佛学领域文本语料进行分词和去停用词处理得到备选词汇集;通过无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换得到词汇矩阵;通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取得到目标领域词汇集;将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接得到初始领域词汇信息;通过目标集成词汇过滤模型对初始领域词汇信息进行分类得到目标领域词汇信息。此外,本发明还涉及区块链技术,佛学领域文本语料可存储于区块链中。
Description
技术领域
本发明涉及人工智能的分类算法领域,尤其涉及一种佛学领域词汇的处理方法、装置、设备及存储介质。
背景技术
随着互联网技术的飞速发展,人们对于从互联网络中获取佛学知识的需求日益剧增,对于佛学词汇的解释信息的获取便是其中一种需求,而前期所进行的领域词汇处理,对于佛学词汇的解释信息的获取准确度起到重要作用。目前,对于佛学领域词汇的处理,一般是采用基于规则的词汇挖掘方法或有监督词汇挖掘方法对佛学词汇进行词汇挖掘。
但是,基于规则的词汇挖掘方法主要面向的对象是表格或其它结构化数据,对于自由文本等非结构化数据的挖掘效果不好;有监督词汇挖掘方法,主要基于机器学习算法模型进行词汇挖掘,需要进行大量的语料标注,从而导致对佛学领域词汇进行词汇挖掘处理的准确性低。
发明内容
本发明提供一种佛学领域词汇的处理方法、装置、设备及存储介质,提高对佛学领域词汇进行词汇挖掘处理的准确性。
本发明第一方面提供了一种佛学领域词汇的处理方法,包括:
获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。
可选的,在本发明第一方面的第一种实现方式中,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,包括:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;
将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。
可选的,在本发明第一方面的第二种实现方式中,所述通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵,包括:
通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集,包括:
通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
可选的,在本发明第一方面的第四种实现方式中,所述获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还包括:
获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;
按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;
通过所述训练词汇信息,对所述初始集成词汇过滤模型进行词汇过滤,得到过滤结果;
根据预置的损失函数和所述过滤结果,对所述初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。
可选的,在本发明第一方面的第五种实现方式中,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库之后,还包括:
获取用户咨询信息,通过预置目标佛学问答模型对所述用户咨询信息进行佛学词汇提取,得到咨询词汇;
通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息。
可选的,在本发明第一方面的第六种实现方式中,所述通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息,包括:
通过预置的多模匹配算法和所述咨询词汇,对所述目标领域词汇集进行滑动匹配,得到与所述咨询词汇对应的目标词汇;
对所述预置数据库中的目标领域词汇信息进行检索,得到与所述目标词汇对应的释义信息。
本发明第二方面提供了一种佛学领域词汇的处理装置,包括:
处理模块,用于获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
转换模块,用于通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
提取模块,用于通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
拼接模块,用于获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
分类模块,用于通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。
可选的,在本发明第二方面的第一种实现方式中,所述分类模块具体用于:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;
将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。
可选的,在本发明第二方面的第二种实现方式中,所述转换模块具体用于:
通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。
可选的,在本发明第二方面的第三种实现方式中,所述提取模块具体用于:
通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
可选的,在本发明第二方面的第四种实现方式中,所述佛学领域词汇的处理装置,还包括:
训练处理模块,用于获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
训练拼接模块,用于获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;
集成模块,用于按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;
过滤模块,用于通过所述训练词汇信息,对所述初始集成词汇过滤模型进行词汇过滤,得到过滤结果;
更新模块,用于根据预置的损失函数和所述过滤结果,对所述初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。
可选的,在本发明第二方面的第五种实现方式中,所述佛学领域词汇的处理装置,还包括:
获取提取模块,用于获取用户咨询信息,通过预置目标佛学问答模型对所述用户咨询信息进行佛学词汇提取,得到咨询词汇;
匹配模块,用于通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息。
可选的,在本发明第二方面的第六种实现方式中,所述匹配模块具体用于:
通过预置的多模匹配算法和所述咨询词汇,对所述目标领域词汇集进行滑动匹配,得到与所述咨询词汇对应的目标词汇;
对所述预置数据库中的目标领域词汇信息进行检索,得到与所述目标词汇对应的释义信息。
本发明第三方面提供了一种佛学领域词汇的处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛学领域词汇的处理设备执行上述的佛学领域词汇的处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的佛学领域词汇的处理方法。
本发明提供的技术方案中,获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;通过预置的无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;获取目标领域词汇集中每个目标领域词汇对应的释义信息,将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库,集成词汇过滤模型由多个文本分类模型集成而得。本发明实施例中,通过无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,无需对佛学领域文本语料进行大量的标注,通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,提高了聚类分析的效率,提高了佛学领域文本语料的处理效率和处理准确性,通过将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,以及通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,提高了对目标领域词汇信息的准确度,从而提高了对佛学领域词汇进行词汇挖掘处理的准确性。
附图说明
图1为本发明实施例中佛学领域词汇的处理方法的一个实施例示意图;
图2为本发明实施例中佛学领域词汇的处理方法的另一个实施例示意图;
图3为本发明实施例中佛学领域词汇的处理装置的一个实施例示意图;
图4为本发明实施例中佛学领域词汇的处理装置的另一个实施例示意图;
图5为本发明实施例中佛学领域词汇的处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种佛学领域词汇的处理方法、装置、设备及存储介质,提高了对佛学领域词汇进行词汇挖掘处理的准确性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中佛学领域词汇的处理方法的一个实施例包括:
101、获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集。
可以理解的是,本发明的执行主体可以为佛学领域词汇的处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
其中,佛学领域文本语料可为已经过数据预处理的佛学语料,服务器从预置数据库中提取已经过数据预处理的佛学语料,从而得到佛学领域文本语料;或者,服务器从预置网页中爬取佛学领域的文本信息,以及从预置数据库中存储的各预置系统生成的佛学领域文本信息,从而得到初始佛学领域文本信息,对初始佛学领域文本信息进行异常值剔除、空值填充和去重处理,得到佛学领域文本语料,该佛学领域文本语料为佛经文本。
服务器获得佛学领域文本语料后,调用预置通用词典对佛学领域文本语料进行分词、去停用词处理和词性过滤,得到初始分词,调用基于佛学知识的词典对佛学领域文本语料对初始分词进行词汇拼接,得到多个备选词汇,即备选词汇集,该停用词包括语气助词、副词、介词、连接词和功能词等。
102、通过预置的无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵。
其中,预置的无监督学习模型的类型为数据集变换,可由主要成分分析(principal component analysis,PCA)算法以及用来产生词向量的相关模型Word2vec的组合而成。服务器调用无监督学习模型中的PCA算法对备选词汇集进行降维处理,得到降维处理后的备选词汇集,调用无监督学习模型中的Word2vec算法或神经网络语言模型(nerual network language model,NNLM),将降维处理后的备选词汇集转换词向量,得到词汇向量,通过欧几里得距离算法或皮尔森相关系数算法,计算每两个词汇向量之间的相似度,并将所有相似度生成一个矩阵,得到词汇矩阵。
103、通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集。
服务器将词汇矩阵输入至预置聚类模型中,通过预置聚类模型对词汇矩阵进行聚类处理,得到多个聚类词汇集,计算每个聚类词汇集中的词汇的词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)值,根据词频-逆文本频率指数值从大到小的顺序对每个聚类词汇集中的词汇进行排序,得到多个词汇序列,将每个词汇序列中前m位(即排列前预设位)的词汇确定为每个聚类词汇集对应的目标领域词汇,从而得到目标领域词汇集。
其中,预置聚类模型可由一个聚类算法构成,也可通过预置的连接方式将多个相同或不同的聚类算法进行连接组合而成,当预置聚类模型为通过预置的连接方式将多个相同或不同的聚类算法进行连接组合而成的,则在通过预置聚类模型对词汇矩阵进行聚类处理,得到多个聚类词汇集时,具体为:服务器通过预置聚类模型中的多个聚类算法,分别对词汇矩阵进行聚类处理,得到多个聚类算法分别对应的多个聚类词汇集,按照聚类族类型将多个聚类算法分别对应的多个聚类词汇集进行融合处理,得到最终的多个聚类词汇集,例如:预置聚类模型中的多个聚类算法分别为聚类算法A、聚类算法B和聚类算法C,对词汇矩阵进行聚类处理,得到聚类算法A对应的多个聚类词汇集A1、A2和A3,聚类算法B对应的聚类词汇B1、B2和B3,以及聚类算法C对应的聚类词汇C1、C2和C3,融合处理得到A1+B1+C1=D1,A2+B2+C2=D2,A3+B3+C3=D3,得到多个聚类词汇集D1、D2和D3。
104、获取目标领域词汇集中每个目标领域词汇对应的释义信息,将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息。
服务器获得目标领域词汇集,根据目标领域词汇集中每个目标领域词汇去百度百科等预置网页中爬取对应的释义信息,并将释义信息转换为字符串,得到释义信息字符串,将目标领域词汇转换为字符串,得到目标领域词汇字符串,按照预设的字符串拼接规则,可通过字符串连接concat函数,将释义信息字符串与对应的目标领域词汇字符串进行字符串拼接,对字符串拼接后的字符串进行语法检测,将不符合预置字符串语法的字符串发送预置审核端,由预置审核端进行人工更正或机器更正,得到更正后的字符串,预置审核端将该更正后的字符串发送至服务器,服务器接收预置审核端发送的更正后的字符串,将更正后的字符串确定为初始领域词汇信息;将符合预置字符串语法的字符串确定为初始领域词汇信息。
105、通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库,集成词汇过滤模型由多个文本分类模型集成而得。
服务器通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别对初始领域词汇信息进行分类和概率统计,得到多个概率值,按照预设权重值将多个概率值进行相加,得到权重和值,将在预设范围值的权重和值对应的初始领域词汇信息确定为目标领域词汇信息,以综合多个分类概率值,对初始领域词汇信息进行分析判断,提高目标领域词汇信息的准确性;
或者,服务器可根据预置的注意力机制计算初始领域词汇信息的注意力值,根据注意力值生成初始领域词汇信息的注意力矩阵,通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别对注意力矩阵进行分类和概率统计,得到多个概率值,将多个概率值相加,得目标分类概率值,将在预设范围值或大于预置概率值的目标分类概率值对应的初始领域词汇信息确定为目标领域词汇信息,通过注意力机制的处理,既能够保留原特征信息,又能够偏重,从而提高目标领域词汇信息的准确性。
服务器得到目标领域词汇信息后,将目标领域词汇信息缓存至远程字典服务(remote dictionary server,Redis)数据库中,即预置数据库,以便于后续对目标领域词汇信息的多种数据结构查找,提高其检索效率和准确性。
其中,预置的目标集成词汇过滤模型由多个文本分类模型集成而得,该多个文本分模型可为多个相同的文本分类模型,也可为多个不相同的文本分类模型,多个文本分类模型的集成方式可为并列连接,即多个文本分类模型的输入相同,多个文本分类模型的集成方式也可为具有逻辑顺序的连接,即多个文本分类模型的输出依次为下一个文本分类模型的输入。通过采用多个文本分类模型集成的目标集成词汇过滤模型,提高了目标集成词汇过滤模型的分类效果。
本发明实施例中,通过无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,无需对佛学领域文本语料进行大量的标注,通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,提高了聚类分析的效率,提高了佛学领域文本语料的处理效率和处理准确性,通过将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,以及通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,提高了对目标领域词汇信息的准确度,从而提高了对佛学领域词汇进行词汇挖掘处理的准确性。
请参阅图2,本发明实施例中佛学领域词汇的处理方法的另一个实施例包括:
201、获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集。
具体地,服务器获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还获取佛学领域文本训练语料中的初始词汇集,对初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;获取训练词汇集中每个训练词汇的释义信息,将训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;通过训练词汇信息,对初始集成词汇过滤模型进行词汇过滤,得到过滤结果;根据预置的损失函数和过滤结果,对初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。
服务器获取佛学领域文本训练语料,对佛学领域文本训练语料进行分词和去停用词处理,得到初始词汇集,通过预置的无监督学习模型,对初始词汇集依次进行词向量转换和矩阵转换,得到词汇训练矩阵,通过预置聚类模型对词汇训练矩阵进行聚类处理和领域词提取,得到训练词汇集,获取训练词汇集中每个训练词汇对应的释义信息,将训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息,训练词汇信息获得的执行过程与上述步骤101-104的执行过程类似。
其中,预置的集成学习策略为引导聚集算法(bootstrap aggregating,Bagging)集成策略,通过Bagging集成策略,将预置的快速文本分类模型fasttext、卷积神经网络文本分类模型TextCNN和预训练的语言表征算法(bidirectional encoder representationfrom transformers,bert)集成为初始集成词汇过滤模型,快速文本分类fasttext模型、卷积神经网络文本分类TextCNN模型和预训练的语言表征bert模型为并列连接,即相同的输入,将快速文本分类fasttext模型、卷积神经网络文本分类TextCNN模型和预训练的语言表征bert模型的输出进行相加。
服务器通过训练词汇信息对初始集成词汇过滤模型进行词汇过滤的训练,得到过滤结果,根据预置的损失函数和过滤结果,对初始集成词汇过滤模型的权重值和/或模型结构参数(超参数)进行更新,和/或对模型结构进行重组或调整,得到侯选集成词汇过滤模型后,获取侯选集成词汇过滤模型的准确率,根据预置的优化算法和准确率对侯选集成词汇过滤模型进行优化,重复上述的更新、重组或调整,以及优化的执行过程,直至损失函数收敛,停止执行过程,得到目标集成词汇过滤模型,目标集成词汇过滤模型可用于对佛学词汇进行识别和过滤,从而得到与佛学领域相关的词汇。
202、通过预置的无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵。
具体地,服务器通过预置的无监督学习模型和词嵌入矩阵,将备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;对词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据多个相似度生成词汇矩阵。
其中,词嵌入矩阵为预先训练好的词嵌入矩阵,词嵌入矩阵可通过词向量算法Word2Vec、负样本、计算语言模型Skip-Gram或词向量学习算法Glove等进行训练后生成所得。无监督学习模型为词向量算法Word2Vec模型。服务器通过词向量算法Word2Vec模型和预先训练好的词嵌入矩阵,将备选词汇集中每个备选词汇转换为词向量,得到多个词汇向量,即词汇向量集。
服务器通过余弦距离算法或欧氏距离算法,计算词汇向量集中每两个词汇向量的余弦相似度或欧氏相似度,得到多个相似值,将多个相似度生成一个词汇矩阵,例如,词汇向量集有词汇向量E1、E2和E3和E4,服务器过余弦距离算法或欧氏距离算法,计算E1分别与E2和E3的余弦相似度或欧氏相似度,得到E12和E13,计算E2和E3的余弦相似度或欧氏相似度,得到E23,则将E12、E13和E23生成一个词汇矩阵F。通过无监督学习模型和词嵌入矩阵,省去了大量人工标注语料的成本。
203、通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集。
具体地,服务器通过预置聚类模型中的吸引子传播算法,对词汇矩阵进行聚类分析,得到多个聚类簇;将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
服务器通过预置聚类模型中的吸引子传播算法Affinity Propagation和预先配置的偏好程度(可为中等相似度,中等相似度可使得聚类数偏大),对词汇矩阵中的每两个词汇向量的相似度进行相同聚类分析,得到相同聚类的多个词汇向量集合,一个词汇向量集合对应一个聚类,通过预置的截断距离算法计算每两个词汇向量集合之间的词汇元素重合部分,判断词汇元素重合部分是否大于预置的目标阈值,若是,则将对应的两个词汇向量集合进行合并,得到合并后的聚类簇,若否,则不对对应的两个词汇向量集合进行合并,对应的两个词汇向量集合分别为一个聚类簇,从而得到多个聚类簇,读取每个聚类簇中排列位置为前n位(即排位为预设位置)的词汇确定为佛学领域文本语料的领域词汇,即目标领域词汇集。通过采用Affinity Propagation聚类算法,解决了k-means聚类算法中存在的人工输入聚类簇数k的问题,提高了聚类分析的效率。
204、获取目标领域词汇集中每个目标领域词汇对应的释义信息,将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息。
步骤204的执行过程与上述步骤104的执行过程类似,在此不再赘述。
205、通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库,集成词汇过滤模型由多个文本分类模型集成而得。
具体地,服务器通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;将多个分类概率值进行相加,得到目标分类概率值,并对目标分类概率值与预设阈值进行对比分析;将目标分类概率值大于预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库。
例如,服务器通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值H1、H2和H3,H1、H2和H3均为初始领域词汇信息属于佛学数据的概率,均为介于0和1之间的一个小数,将H1、H2和H3进行相加,得到目标分类概率值G=H1+H2+H3,判断G是否大于预设预置1.5,若是,则将对应的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并存储至预置数据库redis,若否,则将对应的初始领域词汇信息过滤掉,即删除或将其存储至预置的存储空间中,其中,目标分类概率值G也可为H1、H2和H3的权重和值,即目标分类概率值G=H1*J1+H2*J2+H3*J3,J1+J2+J3=1,以使得标领域词汇信息既能综合多个分类概率值,又能有所偏重,提高了目标领域词汇信息的准确性,从而提高对佛学领域词汇进行词汇挖掘处理的准确性。
206、获取用户咨询信息,通过预置目标佛学问答模型对用户咨询信息进行佛学词汇提取,得到咨询词汇。
服务器可调用预置的任务型机器人,对用户进行语音输入引导,并通过语音采集器采集用户输入的佛学词汇咨询语音信息,调用预置的语音识别模型对佛学词汇咨询语音信息依次进行语音识别、文本转换和分词,得到初始语音分词,通过基于佛学领域知识的词典对初始语音分词进行词性过滤和词汇拼接,得到目标语音分词,将目标语音分词转换为语音分词字符串,将目标领域词汇集中目标领域词转换为目标领域词字符串,计算语音分词字符串与目标领域词字符串的相似度,判断该相似度是否大于预设的第一相似度阈值,若是,则将对应的目标语音分词作为咨询词汇,若否,则判断该相似度是否大于预设的第二相似度阈值,若是,则将对应的目标领域词汇确定为咨询词汇,若否,则判定没有提取到佛学词汇,即咨询词汇,调用任务型机器人,对用户进行语音输入引导,重新采集佛学词汇咨询语音信息,其中,第一相似度阈值大于第二相似度阈值。
207、通过预置的多模匹配算法,将咨询词汇和预置数据库中的目标领域词汇信息进行匹配,得到用户咨询信息对应的释义信息。
具体地,服务器通过预置的多模匹配算法和咨询词汇,对目标领域词汇集进行滑动匹配,得到与咨询词汇对应的目标词汇;对预置数据库中的目标领域词汇信息进行检索,得到与目标词汇对应的释义信息。
其中,预置的多模匹配算法为(Aho-Corasick automation,AC)自动机算法,服务器调用预置目标佛学问答模型中的AC自动机算法,对预置数据库中的目标领域词汇集进行遍历,根据咨询词汇对目标领域词汇集进行滑动匹配,并通过失败fail指针策略防止回溯从而实现快速匹配,得到与咨询词汇对应的目标词汇,调用预置的索引检索引擎,对预置数据库中的目标领域词汇信息进行检索,得到目标领域词汇信息中与对应目标词汇对应的目标领域词汇,从目标领域词汇信息中提取目标领域词汇对应的释义信息,其中,服务器得到目标领域词汇信息后,创建目标领域词汇信息中目标领域词汇与对应的释义信息的对应关系,服务器可根据该对应关系从目标领域词汇信息中提取目标领域词汇对应的释义信息,并将该释义信息渲染至预置显示页面,以将该释义信息反馈至用户。服务器通过采用AC自动机算法进行匹配,缩短咨询词汇与目标领域词汇集的字符串匹配时间,融合克努特—莫里斯—普拉特操作(the knuth-morris-Ppratt algorithm,KMP)算法和字典树的优势,解决了长文本的多模板匹配问题,提高了对佛学领域词汇进行词汇挖掘处理的效率和准确性。
本发明实施例中,不仅能够无需对佛学领域文本语料进行大量的标注,提高了聚类分析的效率,提高了佛学领域文本语料的处理效率和处理准确性,提高了对目标领域词汇信息的准确度,从而提高了对佛学领域词汇进行词汇挖掘处理的准确性,还能够通过采用AC自动机算法进行匹配,缩短咨询词汇与目标领域词汇集的字符串匹配时间,融合克努特—莫里斯—普拉特操作算法和字典树的优势,解决了长文本的多模板匹配问题,提高了对佛学领域词汇进行词汇挖掘处理的效率和准确性。
上面对本发明实施例中佛学领域词汇的处理方法进行了描述,下面对本发明实施例中佛学领域词汇的处理装置进行描述,请参阅图3,本发明实施例中佛学领域词汇的处理装置一个实施例包括:
处理模块301,用于获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
转换模块302,用于通过预置的无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
提取模块303,用于通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
拼接模块304,用于获取目标领域词汇集中每个目标领域词汇对应的释义信息,将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
分类模块305,用于通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库,集成词汇过滤模型由多个文本分类模型集成而得。
上述佛学领域词汇的处理装置中各个模块的功能实现与上述佛学领域词汇的处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,无需对佛学领域文本语料进行大量的标注,通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,提高了聚类分析的效率,提高了佛学领域文本语料的处理效率和处理准确性,通过将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,以及通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,提高了对目标领域词汇信息的准确度,从而提高了对佛学领域词汇进行词汇挖掘处理的准确性。
请参阅图4,本发明实施例中佛学领域词汇的处理装置的另一个实施例包括:
处理模块301,用于获取佛学领域文本语料,对佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
转换模块302,用于通过预置的无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
提取模块303,用于通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
拼接模块304,用于获取目标领域词汇集中每个目标领域词汇对应的释义信息,将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
分类模块305,用于通过预置的目标集成词汇过滤模型,对初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库,集成词汇过滤模型由多个文本分类模型集成而得;
获取提取模块306,用于获取用户咨询信息,通过预置目标佛学问答模型对用户咨询信息进行佛学词汇提取,得到咨询词汇;
匹配模块307,用于通过预置的多模匹配算法,将咨询词汇和预置数据库中的目标领域词汇信息进行匹配,得到用户咨询信息对应的释义信息;
可选的,分类模块305还可以具体用于:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将多个分类概率值进行相加,得到目标分类概率值,并对目标分类概率值与预设阈值进行对比分析;
将目标分类概率值大于预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将目标领域词汇信息存储至预置数据库。
可选的,转换模块302还可以具体用于:
通过预置的无监督学习模型和词嵌入矩阵,将备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据多个相似度生成词汇矩阵。
可选的,提取模块303还可以具体用于:
通过预置聚类模型中的吸引子传播算法,对词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
可选的,佛学领域词汇的处理装置,还包括:
训练处理模块308,用于获取佛学领域文本训练语料中的初始词汇集,对初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
训练拼接模块309,用于获取训练词汇集中每个训练词汇的释义信息,将训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;
集成模块310,用于按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;
过滤模块311,用于通过训练词汇信息,对初始集成词汇过滤模型进行词汇过滤,得到过滤结果;
更新模块312,用于根据预置的损失函数和过滤结果,对初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。
可选的,匹配模块307还可以具体用于:
通过预置的多模匹配算法和咨询词汇,对目标领域词汇集进行滑动匹配,得到与咨询词汇对应的目标词汇;
对预置数据库中的目标领域词汇信息进行检索,得到与目标词汇对应的释义信息。
上述佛学领域词汇的处理装置中各模块和各单元的功能实现与上述佛学领域词汇的处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,不仅能够无需对佛学领域文本语料进行大量的标注,提高了聚类分析的效率,提高了佛学领域文本语料的处理效率和处理准确性,提高了对目标领域词汇信息的准确度,从而提高了对佛学领域词汇进行词汇挖掘处理的准确性,还能够通过采用AC自动机算法进行匹配,缩短咨询词汇与目标领域词汇集的字符串匹配时间,融合克努特—莫里斯—普拉特操作算法和字典树的优势,解决了长文本的多模板匹配问题,提高了对佛学领域词汇进行词汇挖掘处理的效率和准确性。
上面图3和图4从模块化功能实体的角度对本发明实施例中的佛学领域词汇的处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛学领域词汇的处理设备进行详细描述。
图5是本发明实施例提供的一种佛学领域词汇的处理设备的结构示意图,该佛学领域词汇的处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对佛学领域词汇的处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在佛学领域词汇的处理设备500上执行存储介质530中的一系列指令操作。
佛学领域词汇的处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的佛学领域词汇的处理设备结构并不构成对佛学领域词汇的处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行佛学领域词汇的处理方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种佛学领域词汇的处理方法,其特征在于,所述佛学领域词汇的处理方法包括:
获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。
2.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,包括:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;
将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。
3.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵,包括:
通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。
4.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集,包括:
通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
5.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还包括:
获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;
按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;
通过所述训练词汇信息,对所述初始集成词汇过滤模型进行词汇过滤,得到过滤结果;
根据预置的损失函数和所述过滤结果,对所述初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。
6.根据权利要求1-5中任一项所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库之后,还包括:
获取用户咨询信息,通过预置目标佛学问答模型对所述用户咨询信息进行佛学词汇提取,得到咨询词汇;
通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息。
7.根据权利要求6所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息,包括:
通过预置的多模匹配算法和所述咨询词汇,对所述目标领域词汇集进行滑动匹配,得到与所述咨询词汇对应的目标词汇;
对所述预置数据库中的目标领域词汇信息进行检索,得到与所述目标词汇对应的释义信息。
8.一种佛学领域词汇的处理装置,其特征在于,所述佛学领域词汇的处理装置包括:
处理模块,用于获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
转换模块,用于通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
提取模块,用于通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
拼接模块,用于获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
分类模块,用于通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。
9.一种佛学领域词汇的处理设备,其特征在于,所述佛学领域词汇的处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛学领域词汇的处理设备执行如权利要求1-7中任意一项所述的佛学领域词汇的处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述佛学领域词汇的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301853.9A CN113010643B (zh) | 2021-03-22 | 2021-03-22 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301853.9A CN113010643B (zh) | 2021-03-22 | 2021-03-22 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010643A CN113010643A (zh) | 2021-06-22 |
CN113010643B true CN113010643B (zh) | 2023-07-21 |
Family
ID=76404160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110301853.9A Active CN113010643B (zh) | 2021-03-22 | 2021-03-22 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010643B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254084A (zh) * | 2021-08-12 | 2022-03-29 | 北京好欣晴移动医疗科技有限公司 | 心理疾病专业术语无监督聚类方法、装置和系统 |
CN113642312A (zh) * | 2021-08-19 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 体检数据的处理方法、装置、设备及存储介质 |
CN113868419B (zh) * | 2021-09-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
CN109684482A (zh) * | 2019-01-17 | 2019-04-26 | 云南师范大学 | 一种基于深度神经网络模型的民族文化资源聚类分析方法 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
CN110738047A (zh) * | 2019-09-03 | 2020-01-31 | 华中科技大学 | 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统 |
CN110931128A (zh) * | 2019-12-05 | 2020-03-27 | 中国科学院自动化研究所 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299132A1 (en) * | 2009-05-22 | 2010-11-25 | Microsoft Corporation | Mining phrase pairs from an unstructured resource |
US10740566B2 (en) * | 2018-03-23 | 2020-08-11 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
-
2021
- 2021-03-22 CN CN202110301853.9A patent/CN113010643B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
CN109684482A (zh) * | 2019-01-17 | 2019-04-26 | 云南师范大学 | 一种基于深度神经网络模型的民族文化资源聚类分析方法 |
CN110428907A (zh) * | 2019-07-31 | 2019-11-08 | 济南大学 | 一种基于非结构化电子病历的文本挖掘方法及系统 |
CN110738047A (zh) * | 2019-09-03 | 2020-01-31 | 华中科技大学 | 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统 |
CN110931128A (zh) * | 2019-12-05 | 2020-03-27 | 中国科学院自动化研究所 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113010643A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113010643B (zh) | 佛学领域词汇的处理方法、装置、设备及存储介质 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
KR102020756B1 (ko) | 머신러닝을 이용한 리뷰 분석 방법 | |
CN112632292A (zh) | 业务关键词的提取方法、装置、设备及存储介质 | |
CN110109835B (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
KR20190080234A (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
US20210350125A1 (en) | System for searching natural language documents | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
US20210397790A1 (en) | Method of training a natural language search system, search system and corresponding use | |
CN114049505B (zh) | 一种商品的匹配与识别方法、装置、设备和介质 | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
CN111159381A (zh) | 数据搜索方法及装置 | |
CN117474507A (zh) | 一种基于大数据应用技术的智能招聘匹配方法及系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
Desai et al. | Analysis of Health Care Data Using Natural Language Processing | |
CN113590755B (zh) | 词权重的生成方法、装置、电子设备及存储介质 | |
Pham | Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |