CN117077688B - 基于自然语言处理的信息分析方法及系统 - Google Patents

基于自然语言处理的信息分析方法及系统 Download PDF

Info

Publication number
CN117077688B
CN117077688B CN202311341575.5A CN202311341575A CN117077688B CN 117077688 B CN117077688 B CN 117077688B CN 202311341575 A CN202311341575 A CN 202311341575A CN 117077688 B CN117077688 B CN 117077688B
Authority
CN
China
Prior art keywords
analysis
text
result
emotion
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311341575.5A
Other languages
English (en)
Other versions
CN117077688A (zh
Inventor
陈守红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Linqijing Technology Co ltd
Original Assignee
Shenzhen Linqijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Linqijing Technology Co ltd filed Critical Shenzhen Linqijing Technology Co ltd
Priority to CN202311341575.5A priority Critical patent/CN117077688B/zh
Publication of CN117077688A publication Critical patent/CN117077688A/zh
Application granted granted Critical
Publication of CN117077688B publication Critical patent/CN117077688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理的技术领域,公开了一种基于自然语言处理的信息分析方法及系统。所述基于自然语言处理的信息分析方法包括:获取目标文本数据;通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值;本发明通过深度学习模型、特征值的标准化处理、预测偏差值的修正以及网络分析的综合应用,能够确保信息分析的准确性,为用户或决策者提供更为全面和准确的信息分析结果,从而提高决策的效果和效率。

Description

基于自然语言处理的信息分析方法及系统
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种基于自然语言处理的信息分析方法及系统。
背景技术
随着大数据时代的到来,文本数据作为其中重要的组成部分,在各行各业中的应用越来越广泛。为了更好地从文本数据中提取有价值的信息,需要利用自然语言处理技术对文本进行分析。传统的文本分析方法往往基于统计和机器学习方法,虽然能够完成基本的主题和情感分析,但在深度和准确度方面存在一定的局限性。
现有的文本分析方法在对文本的主题、情感等进行分析时,可能会受到一些固有的偏见和误差,这导致分析结果的准确性和稳定性受到影响。同时,传统方法往往忽略了文本中的特征值与实际目标值之间的偏差分析,导致分析结果的预测偏差值较大。此外,现有方法在进行网络分析时,可能无法准确地识别核心话题、主题模式和信息流向,从而影响信息分析的效果。
因此,现有的基于自然语言处理的信息分析方法在深度、准确度和网络分析方面存在明显的局限性,需要进一步的研究和改进。
发明内容
本发明提供了一种基于自然语言处理的信息分析方法及系统,用于解决如何实现提高基于自然语言处理的信息分析的准确性的技术问题。
本发明第一方面提供了一种基于自然语言处理的信息分析方法,所述基于自然语言处理的信息分析方法包括:
获取目标文本数据;
通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;
将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
可选的,在本发明第一方面的第一种实现方式中,所述获取目标文本数据的步骤,包括:
获取用户输入的自然语言文本数据;其中,所述自然语言文本数据至少包括文本消息、音频或视频内容的文字转录;通过预设的机器学习算法对所述自然语言文本数据进行语音识别或文字标准化处理,得到处理后的文本数据;
对处理后的文本数据进行语言预处理,得到目标文本数据;其中,所述语言预处理至少包括通过预置的自然语言处理工具进行分词、词性标注、去除停用词及词干提取。
可选的,在本发明第一方面的第二种实现方式中,所述深度学习模型的训练过程,包括:
获取文本训练数据,将所述文本训练数据输入至初步深度学习网络; 其中,所述初步深度学习网络包括一个主题识别模型、一个极性分析模型和一个情绪解析模型;
基于所述主题识别模型,根据文本训练数据预测相应的主题识别结果;其中,所述主题识别结果用于表示文本中的核心话题或主题;
基于所述极性分析模型,根据文本训练数据预测对应的极性结果;其中,所述极性结果用于预测文本中的正面或负面倾向;
基于所述情绪解析模型,分析文本训练数据中的情绪分布;其中,所述情绪分布用于识别文本中所表达的具体情绪;
获取文本训练数据中预先标定的真实分析结果;其中,真实分析结果包括真实的主题结果、真实的极性结果以及真实的情绪分析结果;
计算预测的主题识别结果与真实的主题识别结果的接近程度,作为主题误差;计算预测的极性结果与真实的极性结果的接近程度,作为极性误差; 计算预测的情绪分析结果与真实的情绪分析结果的接近程度,作为情绪误差;
基于预设的误差优化算法,对初步深度学习网络的参数进行迭代性的调整,并使主题误差、极性误差以及情绪误差最小化,训练得到用于语义和情感分析的深度学习模型。
可选的,在本发明第一方面的第三种实现方式中,所述得到最终的信息分析结果的步骤之后,包括:
获取所述信息分析结果的核心话题、主题模式、信息流向作为待处理文本,提取所述待处理文本的关键特征;其中,所述关键特征包括文本格式特征:字体特征、字号特征、样式特征、编号特征和文本特征;
基于核心话题的字体特征,使用第一转换规则生成对应的第一字元;
基于主题模式的字号特征,使用第二转换规则生成对应的第二字元;
基于信息流向的样式特征,使用第三转换规则生成对应的第三字元;
基于待处理文本的编号特征,使用第四转换规则生成对应的第四字元;
基于待处理文本的文本特征,确定对应的字元组合规则;其中,字元组合规则存储在数据库中,与待处理文本的文本特征相对应;
基于确定的字元组合规则,对第一字元、第二字元、第三字元、第四字元进行组合,形成的组合字元序列作为加密密码;
根据生成的加密密码对核心话题、主题模式、信息流向对应的文本进行加密,得到加密后的信息分析结果。
可选的,在本发明第一方面的第四种实现方式中,所述信息流向指在待处理文本中信息的组织或传递的结构。
本发明第二方面提供了一种基于自然语言处理的信息分析系统,所述基于自然语言处理的信息分析系统包括:
获取模块,用于获取目标文本数据;
分析模块,用于通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
比较模块,用于提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;
修正模块,用于将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
网络分析模块,用于基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
本发明第三方面提供了一种基于自然语言处理的信息分析设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于自然语言处理的信息分析设备执行上述的基于自然语言处理的信息分析方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于自然语言处理的信息分析方法。
本发明提供的技术方案中,有益效果:本发明提供一种基于自然语言处理的信息分析方法及系统,通过获取目标文本数据;通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果。本发明通过深度学习模型,可以对大量的文本数据进行快速、高效和准确的分析,提高分析的准确度和效率。并且通过特征值的标准化和偏差值的计算,能够更为准确地评估模型的分析结果与实际情况的偏离程度,从而为后续的修正提供有力依据。然后通过预测偏差值的计算和结果的修正,确保分析结果的准确性和可靠性,为后续的决策提供更为稳定和可靠的依据。最后通过对修正后的分析结果进行网络分析,可以全面深入地了解文本数据中的关键信息和隐藏的关联,为决策者提供更为详实和有深度的分析结果。
附图说明
图1为本发明实施例中基于自然语言处理的信息分析方法的一个实施例示意图;
图2为本发明实施例中基于自然语言处理的信息分析系统的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于自然语言处理的信息分析方法及系统。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于自然语言处理的信息分析方法的一个实施例包括:
步骤101、获取目标文本数据;
可以理解的是,本发明的执行主体可以为基于自然语言处理的信息分析装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,为了实现步骤101,可以按照以下具体实施例进行操作:
确定目标文本数据来源:
确定目标文本数据所在的数据库或文档,例如专利数据库、科技文献数据库或商业文本数据库等。
确认访问目标文本数据所需的许可或权限,并获取相应的访问凭证。
使用合适的检索方法:
根据专利的领域、技术领域或关键词等,使用适当的检索方式来搜索目标文本数据。
可以使用专业的检索工具或搜索引擎,如专利数据库、文献检索系统或专业搜索引擎等。
进行高级检索,使用布尔逻辑运算符、通配符、近似搜索或引用文献检索等技巧,以获取更准确和相关的结果。
筛选和收集目标文本数据:
遍历搜索结果列表,筛选出与专利说明书主题相关的文本数据。
定义筛选准则,例如选择与专利所涉及技术相符的领域、年份、作者或标题等。
收集有关文本数据的详细信息,包括标题、摘要、主题词、作者、引用文献等。
组织和分析目标文本数据:
建立一个合适的数据管理系统,将收集到的文本数据整理和组织,以便后续分析和引用。
对目标文本数据进行分析,包括统计特定关键词的出现频率、词义关联、技术趋势等。
使用专业的数据分析工具或编程语言,如Python,进行文本挖掘和数据可视化分析。
步骤102、通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
具体的,为了实现步骤102,可以按照以下具体实施例进行操作:
数据预处理:
对目标文本数据进行预处理,包括去除特殊字符、标点符号和停用词等。
对文本进行分词处理,将文本分割成一个个独立的词语或短语。
构建深度学习模型:
根据任务需求,选择合适的深度学习模型,如递归神经网络(RNN)、长短期记忆网络(LSTM)或卷积神经网络(CNN)等。
定义模型的输入和输出,例如将预处理后的文本作为输入,预测主题、极性和情绪作为输出。
模型训练:
准备标注好的训练数据集,包含具有已知主题、极性和情绪的文本样本。
划分训练集、验证集和测试集,用于模型的训练、调优和评估。
使用训练数据集对深度学习模型进行训练,通过反向传播算法进行参数优化,使模型能够预测和区分主题、极性和情绪。
模型应用和结果分析:
使用训练后的深度学习模型对目标文本数据进行预测,并获得识别主题结果、极性结果和情绪结果。
分析模型的预测结果,将其与真实标签进行比较和评估,计算准确率、召回率、F1值等评估指标。
步骤103、提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;
具体的,为了实现步骤103,可以按照以下具体实施例进行操作:
特征值提取:1.1. 采用自然语言处理(NLP)技术,利用词频-逆文档频率(TF-IDF)算法,对文本中的数据进行处理,提取第一特征值;1.2. 利用情感分析技术,对文本进行情感极性评分,从而提取第二特征值。
特征值标准化处理:2.1. 对于第一特征值,采用Z-score标准化方法,即: [ 第一目标值 = frac{第一特征值 - 均值}{标准差} ] 其中,均值和标准差基于训练数据集获得; 2.2. 对于第二特征值,采用Min-Max标准化方法,即: [ 第二目标值 = frac{第二特征值 - 最小值}{最大值 - 最小值} ]其中,最小值和最大值基于训练数据集获得。
特征偏差值计算:3.1. 对第一特征值与第一目标值进行差值计算,得到第一特征偏差值;3.2. 对第二特征值与第二目标值进行差值计算,得到第二特征偏差值。
步骤104、将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
具体的,为了实现步骤104,可以按照以下具体实施例进行操作:
预测偏差值计算:采用一种权重分配策略,通过第一特征偏差值和第二特征偏差值计算预测偏差值。定义权重( w_1, w_2 ),其中( w_1 + w_2 = 1 ),预测偏差值计算方法定义为: [ 预测偏差值 = w_1 \times 第一特征偏差值 + w_2 \times 第二特征偏差值 ] 其中权重( w_1, w_2 )可通过经验或算法(如梯度下降)得到,以确保各特征偏差值对预测偏差值的贡献得到合理的体现。
分析结果修正:利用预测偏差值修正分析结果。假定原始分析结果为( R ),修正后的分析结果( R' )可通过下式获得: [ R' = R + \alpha \times 预测偏差值 ] 其中,修正系数( \alpha )是一个可调参数,决定预测偏差值在修正中的影响程度,可通过交叉验证方法确定最优值。
步骤105、基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
具体的,为了实现步骤105,可以按照以下具体实施例进行操作:
数据准备和预处理:
数据收集: 从多个数据源(如社交媒体、新闻网站等)收集与目标文本相关的数据。
文本清洗: 去除停用词、标点符号,进行词干提取或词形还原。
文本向量化: 使用TF-IDF、Word2Vec或其他高维向量表示法将文本转换为数值型数据。
网络分析:
识别核心话题:
主题模型分析: 使用LDA(Latent Dirichlet Allocation)或NMF(非负矩阵分解)等方法,对文本进行主题模型分析。
核心话题识别: 根据主题模型的输出,选择权重最高的几个主题作为核心话题。
主题模式
聚类分析: 利用K-means或DBSCAN等聚类算法,将文本数据按主题进行分组。
模式识别: 在各个聚类内部进行关联规则分析,识别主题模式。
信息流向:
社交网络分析: 建立节点和边的图模型,其中节点代表信息源,边代表信息传播。
信息流向分析: 使用PageRank或其他图算法,分析信息流向,识别信息传播的关键节点。
结果输出:
可视化: 利用图表或其他可视化工具,展示网络分析的结果。
报告生成: 撰写详细的分析报告,包括核心话题、主题模式和信息流向的具体情况。
例如,如果目标文本数据是关于“可再生能源”的,核心话题可能包括“太阳能”、“风能”和“水力发电”。主题模式可能显示,在讨论“太阳能”时,经常会提到“光伏板”和“储能系统”。信息流向分析可能识别出某几个权威媒体或个人账号是信息传播的关键节点。
本发明实施例中基于自然语言处理的信息分析方法的另一个实施例包括:
所述获取目标文本数据的步骤,包括:
获取用户输入的自然语言文本数据;其中,所述自然语言文本数据至少包括文本消息、音频或视频内容的文字转录;通过预设的机器学习算法对所述自然语言文本数据进行语音识别或文字标准化处理,得到处理后的文本数据;
对处理后的文本数据进行语言预处理,得到目标文本数据;其中,所述语言预处理至少包括通过预置的自然语言处理工具进行分词、词性标注、去除停用词及词干提取。
具体的,为了实现本实施例,可以按照以下具体实施例进行操作:
1. 获取用户输入的自然语言文本数据
1.1. 数据输入方式
文本消息: 用户通过键盘或其他输入设备直接输入自然语言文本。
音频输入: 用户通过麦克风或其他音频采集设备进行语音输入。
视频输入: 用户上传视频内容,其中可能包含对话或其他人声成分。
1.2. 音频或视频内容的文字转录
对于输入的音频或视频数据,系统首先使用自动语音识别技术(ASR),如 GoogleCloud Speech-to-Text 或 IBM Watson Speech to Text,将其转录为文字内容。
2. 机器学习算法处理
2.1. 语音识别
如果输入数据为音频或视频,先通过预设的ASR模型进行语音转文字工作,确保内容被转化为可处理的文本格式。
2.2. 文字标准化处理
对所得到的文本数据进行标准化处理,包括但不限于:
纠正拼写错误;
统一同义词;
格式标准化(如日期、时间等);
此步骤可以使用机器学习模型如BERT、Transformer或其他预训练模型进行。
3. 语言预处理
3.1. 分词
使用预置的自然语言处理工具,如jieba分词器(针对中文)或NLTK(针对英文)进行分词操作。
3.2. 词性标注
对分词后的结果进行词性标注,确定每个词的语法角色。例如,NLTK的POS tagger可以进行此操作。
3.3. 去除停用词
利用预定义的停用词列表,如NLTK的停用词列表或自定义列表,去除不携带重要语义的词,如“和”、“的”、“是”等。
3.4. 词干提取
使用工具如NLTK的Porter Stemmer或Snowball Stemmer,将词汇还原为其基本形式或词干,以减少数据的复杂性。
4. 输出
经过以上处理步骤,得到的处理后的数据即为目标文本数据,可供后续的分析或其他处理使用。
例如,用户通过音频输入“我今天去了图书馆并借了几本书”。首先,通过ASR技术将语音转为文本。接着进行分词,得到“我/今天/去/了/图书馆/并/借/了/几本/书”。词性标注后,可以知道“去”为动词,“图书馆”为名词。去除停用词“了”和“并”,然后进行词干提取。最后得到的目标文本数据为“我/今天/去/图书馆/借/几本/书”。
本发明实施例中基于自然语言处理的信息分析方法的另一个实施例包括:
所述深度学习模型的训练过程,包括:
获取文本训练数据,将所述文本训练数据输入至初步深度学习网络; 其中,所述初步深度学习网络包括一个主题识别模型、一个极性分析模型和一个情绪解析模型;
基于所述主题识别模型,根据文本训练数据预测相应的主题识别结果;其中,所述主题识别结果用于表示文本中的核心话题或主题;
基于所述极性分析模型,根据文本训练数据预测对应的极性结果;其中,所述极性结果用于预测文本中的正面或负面倾向;
基于所述情绪解析模型,分析文本训练数据中的情绪分布;其中,所述情绪分布用于识别文本中所表达的具体情绪;
获取文本训练数据中预先标定的真实分析结果;其中,真实分析结果包括真实的主题结果、真实的极性结果以及真实的情绪分析结果;
计算预测的主题识别结果与真实的主题识别结果的接近程度,作为主题误差;计算预测的极性结果与真实的极性结果的接近程度,作为极性误差; 计算预测的情绪分析结果与真实的情绪分析结果的接近程度,作为情绪误差;
基于预设的误差优化算法,对初步深度学习网络的参数进行迭代性的调整,并使主题误差、极性误差以及情绪误差最小化,训练得到用于语义和情感分析的深度学习模型。
具体的,为了实现本实施例,可以按照以下具体实施例进行操作:
首先获取到一份已经标注好的文本训练数据,这些数据应包含被预先标定的真实的主题结果、真实的极性结果和真实的情绪分析结果。
构建初步深度学习网络:
深度学习网络包括三个主要模型,分别是主题识别模型、极性分析模型和情绪解析模型。这三种模型通常采用神经网络模型实现,例如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)模型、门控循环单元(GRU)模型或者自注意力模型(Transformer)。
预测分析:
主题识别:
输入文本训练数据,通过主题识别模型预测出文本中的核心话题或主题。
极性分析:
输入文本训练数据,通过极性分析模型预测出文本中的正面或负面倾向。
情绪解析:
输入文本训练数据,通过情绪解析模型识别出文本中所表达的具体情绪。
计算误差并优化模型:
计算主题误差:计算预测的主题识别结果与真实的主题识别结果的接近程度,这可以通过损失函数(例如,交叉熵损失)来实现。
计算极性误差:计算预测的极性结果与真实的极性结果的接近程度,也可以通过损失函数(例如,均方误差)实现。
计算情绪误差:计算预测的情绪分析结果与真实的情绪分析结果的接近程度,这同样可以通过损失函数来实现。
所述误差优化算法可以由梯度下降算法(SGD)、随机梯度下降算法(RMSprop、Adam等)等优化算法基于预设的误差优化算法来最小化。在这个过程中,会对初步深度学习网络的参数进行优化。
本发明实施例中基于自然语言处理的信息分析方法的另一个实施例包括:
所述得到最终的信息分析结果的步骤之后,包括:
获取所述信息分析结果的核心话题、主题模式、信息流向作为待处理文本,提取所述待处理文本的关键特征;其中,所述关键特征包括文本格式特征:字体特征、字号特征、样式特征、编号特征和文本特征;
基于核心话题的字体特征,使用第一转换规则生成对应的第一字元;
基于主题模式的字号特征,使用第二转换规则生成对应的第二字元;
基于信息流向的样式特征,使用第三转换规则生成对应的第三字元;
基于待处理文本的编号特征,使用第四转换规则生成对应的第四字元;
基于待处理文本的文本特征,确定对应的字元组合规则;其中,字元组合规则存储在数据库中,与待处理文本的文本特征相对应;
基于确定的字元组合规则,对第一字元、第二字元、第三字元、第四字元进行组合,形成的组合字元序列作为加密密码;
根据生成的加密密码对核心话题、主题模式、信息流向对应的文本进行加密,得到加密后的信息分析结果。
具体的,为了实现本实施例,可以按照以下具体实施例进行操作:
获取信息分析结果的核心话题、主题模式、信息流向作为待处理文本:
例如,通过网络爬虫、API接口或其他数据获取方式从互联网中收集到的文本信息,作为待处理文本。
提取待处理文本的关键特征:
文本格式特征:
字体特征:如宋体、黑体等;
字号特征:如12号、14号等;
样式特征:如加粗、斜体等;
编号特征:如列表编号1、2、3等;
文本特征:如文本的语义、关键词等。
基于核心话题的字体特征,使用第一转换规则生成对应的第一字元:
例如,若核心话题的字体为宋体,通过预设的第一转换规则映射生成对应的第一字元“A”。
基于主题模式的字号特征,使用第二转换规则生成对应的第二字元:
例如,若主题模式的字号为14号,通过预设的第二转换规则映射生成对应的第二字元“B”。
基于信息流向的样式特征,使用第三转换规则生成对应的第三字元:
例如,若信息流向的样式为加粗,通过预设的第三转换规则映射生成对应的第三字元“C”。
基于待处理文本的编号特征,使用第四转换规则生成对应的第四字元:
例如,若待处理文本的编号为1,通过预设的第四转换规则映射生成对应的第四字元“D”。
基于待处理文本的文本特征,确定对应的字元组合规则:
例如,根据待处理文本的语义关键词,从预存于数据库中的字元组合规则中选择相应的组合规则。
基于确定的字元组合规则,对第一字元、第二字元、第三字元、第四字元进行组合,形成的组合字元序列作为加密密码:
例如,根据选定的字元组合规则,将字元“ABCD”组合为加密密码“DABC”。
根据生成的加密密码对核心话题、主题模式、信息流向对应的文本进行加密,得到加密后的信息分析结果:
利用生成的加密密码,通过某种加密算法(如AES、RSA等)对待处理文本进行加密处理,得到最终的加密后的信息分析结果。
上面对本发明实施例中基于自然语言处理的信息分析方法进行了描述,下面对本发明实施例中基于自然语言处理的信息分析系统进行描述,请参阅图2,本发明实施例中基于自然语言处理的信息分析系统一个实施例包括:
获取模块,用于获取目标文本数据;
分析模块,用于通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
比较模块,用于提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;
修正模块,用于将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
网络分析模块,用于基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
本发明还提供一种基于自然语言处理的信息分析设备,所述基于自然语言处理的信息分析设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于自然语言处理的信息分析方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于自然语言处理的信息分析方法的步骤。
有益效果:本发明提供一种基于自然语言处理的信息分析方法及系统,通过获取目标文本数据;通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果。本发明通过深度学习模型,可以对大量的文本数据进行快速、高效和准确的分析,提高分析的准确度和效率。并且通过特征值的标准化和偏差值的计算,能够更为准确地评估模型的分析结果与实际情况的偏离程度,从而为后续的修正提供有力依据。然后通过预测偏差值的计算和结果的修正,确保分析结果的准确性和可靠性,为后续的决策提供更为稳定和可靠的依据。最后通过对修正后的分析结果进行网络分析,可以全面深入地了解文本数据中的关键信息和隐藏的关联,为决策者提供更为详实和有深度的分析结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于自然语言处理的信息分析方法,其特征在于,包括以下步骤:
获取目标文本数据;
通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理,生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;其中,所述第一特征值为基于自然语言处理技术,利用词频-逆文档频率算法,对所述分析结果所对应的文本中的数据进行处理和提取得到的;所述第二特征值为利用情感分析技术,对所述分析结果所对应的文本中的数据进行情感极性评分处理和提取得到的;
将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
2.根据权利要求1所述的信息分析方法,其特征在于,所述获取目标文本数据的步骤,包括:
获取用户输入的自然语言文本数据;其中,所述自然语言文本数据包括文本消息、音频或视频内容的文字转录;通过预设的机器学习算法对所述自然语言文本数据进行语音识别或文字标准化处理,得到处理后的文本数据;
对处理后的文本数据进行语言预处理,得到目标文本数据;其中,所述语言预处理至少包括通过预置的自然语言处理工具进行分词、词性标注、去除停用词及词干提取。
3.根据权利要求1所述的信息分析方法,其特征在于,所述深度学习模型的训练过程,包括:
获取文本训练数据,将所述文本训练数据输入至初步深度学习网络; 其中,所述初步深度学习网络包括一个主题识别模型、一个极性分析模型和一个情绪解析模型;
基于所述主题识别模型,根据文本训练数据预测相应的主题识别结果;其中,所述主题识别结果用于表示文本中的核心主题;
基于所述极性分析模型,根据文本训练数据预测对应的极性结果;其中,所述极性结果用于预测文本中的正面或负面倾向;
基于所述情绪解析模型,分析文本训练数据中的情绪分布;其中,所述情绪分布用于识别文本中所表达的具体情绪;
获取文本训练数据中预先标定的真实分析结果;其中,真实分析结果包括真实的主题结果、真实的极性结果以及真实的情绪分析结果;
计算预测的主题识别结果与真实的主题识别结果的接近程度,作为主题误差;计算预测的极性结果与真实的极性结果的接近程度,作为极性误差; 计算预测的情绪分析结果与真实的情绪分析结果的接近程度,作为情绪误差;
基于预设的误差优化算法,对初步深度学习网络的参数进行迭代性的调整,并使主题误差、极性误差以及情绪误差最小化,训练得到用于语义和情感分析的深度学习模型。
4.根据权利要求1所述的信息分析方法,其特征在于,所述得到最终的信息分析结果的步骤之后,包括:
获取所述信息分析结果的核心话题、主题模式、信息流向作为待处理文本,提取所述待处理文本的关键特征;其中,所述关键特征包括文本格式特征:字体特征、字号特征、样式特征、编号特征和文本特征;
基于核心话题的字体特征,使用第一转换规则生成对应的第一字元;
基于主题模式的字号特征,使用第二转换规则生成对应的第二字元;
基于信息流向的样式特征,使用第三转换规则生成对应的第三字元;
基于待处理文本的编号特征,使用第四转换规则生成对应的第四字元;
基于待处理文本的文本特征,确定对应的字元组合规则;其中,字元组合规则存储在数据库中,与待处理文本的文本特征相对应;
基于确定的字元组合规则,对第一字元、第二字元、第三字元、第四字元进行组合,形成的组合字元序列作为加密密码;
根据生成的加密密码对核心话题、主题模式、信息流向对应的文本进行加密,得到加密后的信息分析结果。
5.根据权利要求4所述的信息分析方法,其特征在于,所述信息流向指在待处理文本中信息的组织或传递的结构。
6.一种基于自然语言处理的信息分析系统,其特征在于,所述基于自然语言处理的信息分析系统包括:
获取模块,用于获取目标文本数据;
分析模块,用于通过训练后的深度学习模型对目标文本数据进行语义和情感分析,得到分析结果;其中,所述分析结果至少包括识别主题结果、极性结果和情绪结果;
比较模块,用于提取所述分析结果所对应的文本中的第一特征值和第二特征值,并基于预设的第一标准化法则对所述第一特征值进行标准处理生成第一目标值,以及基于预设的第二标准化法则对所述第二特征值进行标准处理,生成第二目标值,将所述第一特征值与所述第一目标值进行比较分析,得到第一特征偏差值,以及将所述第二特征值与所述第二目标值进行比较分析,得到第二特征偏差值;其中,所述第一特征值为基于自然语言处理技术,利用词频-逆文档频率算法,对所述分析结果所对应的文本中的数据进行处理和提取得到的;所述第二特征值为利用情感分析技术,对所述分析结果所对应的文本中的数据进行情感极性评分处理和提取得到的;
修正模块,用于将所述第一特征偏差值与所述第二特征偏差值作为所述分析结果的预测偏差值,根据所述预测偏差值修正所述分析结果,得到修正后的分析结果;
网络分析模块,用于基于所述修正后的分析结果,对与所述目标文本数据关联的信息进行网络分析,得到最终的信息分析结果;其中,所述网络分析至少包括识别核心话题、主题模式、信息流向。
7.一种基于自然语言处理的信息分析设备,其特征在于,所述基于自然语言处理的信息分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于自然语言处理的信息分析设备执行如权利要求1-5中任一项所述的基于自然语言处理的信息分析方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-5中任一项所述的基于自然语言处理的信息分析方法。
CN202311341575.5A 2023-10-17 2023-10-17 基于自然语言处理的信息分析方法及系统 Active CN117077688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311341575.5A CN117077688B (zh) 2023-10-17 2023-10-17 基于自然语言处理的信息分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311341575.5A CN117077688B (zh) 2023-10-17 2023-10-17 基于自然语言处理的信息分析方法及系统

Publications (2)

Publication Number Publication Date
CN117077688A CN117077688A (zh) 2023-11-17
CN117077688B true CN117077688B (zh) 2024-03-29

Family

ID=88710171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311341575.5A Active CN117077688B (zh) 2023-10-17 2023-10-17 基于自然语言处理的信息分析方法及系统

Country Status (1)

Country Link
CN (1) CN117077688B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN111767741A (zh) * 2020-06-30 2020-10-13 福建农林大学 一种基于深度学习和tfidf算法的文本情感分析方法
CN112882934A (zh) * 2021-02-24 2021-06-01 中国工商银行股份有限公司 基于缺陷增长的测试分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270407A1 (en) * 2016-03-18 2017-09-21 Google Inc. Globally normalized neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN111767741A (zh) * 2020-06-30 2020-10-13 福建农林大学 一种基于深度学习和tfidf算法的文本情感分析方法
CN112882934A (zh) * 2021-02-24 2021-06-01 中国工商银行股份有限公司 基于缺陷增长的测试分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BERT的文本情感分析方法的研究;方英兰 等;信息技术与信息化(第2期);第108-111页 *
基于深度神经网络的微博文本情感倾向性分析;钮成明 等;计算机系统应用;第27卷(第11期);第205-210页 *

Also Published As

Publication number Publication date
CN117077688A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
WO2022110637A1 (zh) 问答对话评测方法、装置、设备及存储介质
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN110414004B (zh) 一种核心信息提取的方法和系统
CN111597328B (zh) 一种新事件主题提取方法
US20220114340A1 (en) System and method for an automatic search and comparison tool
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
CN114266256A (zh) 一种领域新词的提取方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110347833B (zh) 一种多轮对话的分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
JP4005343B2 (ja) 情報検索システム
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN117077688B (zh) 基于自然语言处理的信息分析方法及系统
Bayrami et al. Code authorship attribution using content-based and non-content-based features
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Maheswari et al. Rule based morphological variation removable stemming algorithm
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
CN109298796B (zh) 一种词联想方法及装置
CN112000782A (zh) 一种基于k-means聚类算法的智能客服问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240306

Address after: 518000 B501, Building B, Blue Kun Group, Dajingshan Baoshi Road, Buxin Community, Xin'an Street, Bao'an District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen linqijing Technology Co.,Ltd.

Country or region after: China

Address before: 33b, building 4, Dachong Business Center (phase III), Dachong community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: Shenzhen gelonghui Information Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant