CN116629275B - 一种基于大数据的智能决策支持系统及方法 - Google Patents

一种基于大数据的智能决策支持系统及方法 Download PDF

Info

Publication number
CN116629275B
CN116629275B CN202310896499.8A CN202310896499A CN116629275B CN 116629275 B CN116629275 B CN 116629275B CN 202310896499 A CN202310896499 A CN 202310896499A CN 116629275 B CN116629275 B CN 116629275B
Authority
CN
China
Prior art keywords
semantic understanding
feature vector
text
analyzed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310896499.8A
Other languages
English (en)
Other versions
CN116629275A (zh
Inventor
赵贝尔
袁高明
崔晓茹
何颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wuji Huitong Technology Co ltd
Original Assignee
Beijing Wuji Huitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wuji Huitong Technology Co ltd filed Critical Beijing Wuji Huitong Technology Co ltd
Priority to CN202310896499.8A priority Critical patent/CN116629275B/zh
Publication of CN116629275A publication Critical patent/CN116629275A/zh
Application granted granted Critical
Publication of CN116629275B publication Critical patent/CN116629275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种基于大数据的智能决策支持系统及方法。该系统包括:用于从大数据源提取待分析数据的数据提取模块;用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量的数据分析模块;以及,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪的文本情感检测模块。通过这样的方式,基于深度学习的语义理解模型对于文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据。

Description

一种基于大数据的智能决策支持系统及方法
技术领域
本申请涉及智能决策支持领域,且更为具体地,涉及一种基于大数据的智能决策支持系统及方法。
背景技术
随着大数据时代的到来,各行各业都面临着海量数据的处理和分析挑战。在决策过程中,准确地了解和解释这些数据对于做出明智的决策至关重要。利用大数据分析可以帮助企业和组织了解消费者对产品、服务或事件的感受和态度,以及用于处理商业方面的疑难问题等。进一步可以从大数据中提取出有关用户的信息,为决策者提供更准确的决策依据。
然而,现有的大数据分析方案存在诸多缺陷,例如不同的人可能对同一段文本有不同的情感理解,这会导致出现不同的情感分析结果,影响决策者的决策准确性。并且,在处理大数据时,需要对于大量的数据进行语境和语义分析,这对于情感分析和决策支持带来了一定的挑战。
因此,期望一种优化的基于大数据的智能决策支持系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大数据的智能决策支持系统及方法。其基于深度学习的语义理解模型对于文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据。
根据本申请的一个方面,提供了一种基于大数据的智能决策支持系统,其包括:
数据提取模块,用于从大数据源提取待分析数据;
数据分析模块,用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;
以及文本情感检测模块,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
根据本申请的另一个方面,提供了一种基于大数据的智能决策支持方法,其包括:
从大数据源提取待分析数据;
对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;
以及基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
与现有技术相比,本申请提供的基于大数据的智能决策支持系统及其方法,该系统包括:用于从大数据源提取待分析数据的数据提取模块;用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量的数据分析模块;以及,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪的文本情感检测模块。通过这样的方式,基于深度学习的语义理解模型对于文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于大数据的智能决策支持系统的框图示意图。
图2为根据本申请实施例的基于大数据的智能决策支持系统中的所述数据分析模块的框图示意图。
图3为根据本申请实施例的基于大数据的智能决策支持系统中的所述文本语义理解单元的框图示意图。
图4为根据本申请实施例的基于大数据的智能决策支持系统中的所述文本情感检测模块的框图示意图。
图5为根据本申请实施例的基于大数据的智能决策支持方法的流程图。
图6为根据本申请实施例的基于大数据的智能决策支持方法的系统架构的示意图。
图7为根据本申请实施例的基于大数据的智能决策支持系统的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
现有的情感分析方案存在诸多缺陷,例如不同的人可能对同一段文本有不同的情感理解,这会导致出现不同的情感分析结果,影响决策者的决策准确性。并且,在处理大数据时,需要对于大量的数据进行语境和语义分析,这对于情感分析和决策支持带来了一定的挑战。因此,期望一种优化的基于大数据的智能决策支持系统。
相应地,考虑到在实际进行文本分析时,待分析数据中可能会存在有一些无关的信息、拼写错误、语法错误、特殊字符等,这些都可能对情感分析的结果产生负面影响。并且,在实际进行文本情感分析以进行决策支持时,应从待分析数据中提取出有关的文本数据信息,以此来有效地进行文本情感检测。基于此,在本申请的技术方案中,期望在对于待分析数据进行数据降噪处理和内容解析生成文本数据后,利用基于深度学习的语义理解模型来对于该文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据。
图1为根据本申请实施例的基于大数据的智能决策支持系统的框图示意图。如图1所示,根据本申请实施例的基于大数据的智能决策支持系统100,包括:数据提取模块110,用于从大数据源提取待分析数据;数据分析模块120,用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;以及,文本情感检测模块130,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
更具体地,在本申请实施例中,所述数据提取模块110,用于从大数据源提取待分析数据。应可以理解,从大数据源提取待分析数据可以通过下述方法之一进行,具体地,可以通过数据库查询,对于结构化数据存储在数据库中的情况,可以使用SQL查询语言或其他数据库查询工具来提取所需数据;可以通过API接口调用,当数据源提供了API接口,可以通过调用接口来获取数据,通常需要使用API密钥或授权凭证进行身份验证和权限验证;可以通过日志文件解析,对于服务器日志、应用程序日志等文本格式的数据,可以编写解析程序来提取所需的信息;还可以通过数据传输进行获取,当数据源位于不同的系统或网络中,可以使用数据传输工具或协议(如FTP、SFTP、HTTP等)来将数据从源系统传输到目标系统进行分析。
更具体地,在本申请实施例中,所述数据分析模块120,用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量。相应地,在一个具体示例中,如图2所示,所述数据分析模块120,包括:数据降噪单元121,用于对所述待分析数据进行内容降噪以得到降噪后待分析数据;数据内容解析单元122,用于对所述降噪后待分析数据进行内容解析以得到待分析文本数据;以及,文本语义理解单元123,用于对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量。
其中,在所述数据降噪单元121中,考虑到在实际进行语义情感分析时,由于所述待分析数据中可能包含一些无关信息、拼写错误、语法错误、特殊字符等,这些因素都可能对情感分析的结果产生影响。因此,在本申请的技术方案中,需要对所述待分析数据进行内容降噪以得到降噪后待分析数据。这样,能够减少干扰和噪音,使得分析的数据更加干净和规范,从而使得降噪后的数据更有利于情感分析算法的准确识别和提取文本情感,以提高情感分析的效果。应可以理解,内容降噪可以通过停用词过滤的方法实现,停用词是指在文本中频繁出现但没有实际含义的词语,例如“的”、“是”、“在”等,通过建立一个停用词列表,可以将这些词从待分析数据中去除;还可以通过特殊字符过滤的方法实现,对于包含特殊字符、标点符号、HTML标签等的数据,可以使用正则表达式或其他方法进行过滤和清洗,只保留文本内容;还可以通过去除重复数据的方法实现,如果待分析数据中存在重复的文本,可以进行去重操作,只保留一份;还可以通过异常值检测的方法实现,通过统计分析或机器学习方法,检测和过滤掉异常值或异常文本,例如包含错误信息、噪音数据等;又或者,还可以通过格式规范化的方法实现,对于不同格式的数据,可以进行格式规范化,统一数据的表示方式,方便后续的内容解析。应可以理解,以上内容降噪方法可以相互组合使用,具体的实施可以根据实际情况和需求进行调整和优化,并不限于只使用一种方法。
进一步地,对于所述降噪后待分析数据来说,其中包含有大量的数据信息量,因此为了能够便于后续的语义情感分析,需要对所述降噪后待分析数据进行内容解析以得到待分析文本数据。特别地,在内容解析过程中,可以使用自然语言处理技术和文本处理算法对所述降噪后的待分析数据进行分词、词性标注、句法分析等操作,从而将数据转化为计算机可以理解和处理的文本数据,这样可以为后续的情感分析算法提供更准确、更丰富的输入。
然后,对待分析文本数据进行字符和词的划分,并通过语义编码器生成字符粒度和词粒度的语义理解特征向量,以更好地理解所述待分析文本数据的语义和上下文信息,以便进行情感分析。具体来说,首先,将所述待分析文本数据以字符为单位进行划分,可以将所述待分析文本数据分解成一个个字符的序列以得到待分析字符的序列。这样能够捕捉文本中的细粒度字符语义特征,例如单个字符的情感表达。其次,将所述待分析文本数据以词为单位进行划分,可以将文本数据分解成一个个词的序列以得到待分析词的序列。这样能够更好地捕捉到文本中有关于词级别的语义信息,有利于后续对于所述待分析文本数据进行准确地语义理解和情绪检测。
相应地,在一个具体示例中,如图3所示,所述文本语义理解单元123,包括:字符划分子单元1231,用于对所述待分析文本数据进行以字符为单位进行划分以得到待分析字符的序列;词划分子单元1232,用于将所述待分析文本数据进行以词为单位进行划分以得到待分析词的序列;字符语义关联编码子单元1233,用于对所述待分析字符的序列进行字符粒度关联语义编码以得到字符粒度语义理解特征向量;词关联编码子单元1234,用于对所述待分析词的序列进行词粒度关联语义编码以得到词粒度语义理解特征向量;以及,多粒度语义理解子单元1235,用于融合所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量以得到所述多粒度语义理解特征向量。应可以理解,在这个具体示例中,所提到的关联编码是指对待分析的字符或词进行编码,以捕捉对待分析的字符或词之间的语义关联。具体来说,字符语义关联编码子单元和词关联编码子单元分别对待分析的字符序列和词序列进行编码。字符语义关联编码子单元通过对字符序列进行编码,生成字符粒度语义理解特征向量。这意味着其会考虑每个字符及其在序列中的位置,并将其转化为一个向量表示,以捕捉字符之间的语义关联。词关联编码子单元通过对词序列进行编码,生成词粒度语义理解特征向量。其会考虑每个词及其在序列中的位置,并将其转化为一个向量表示,以捕捉词之间的语义关联。最后,多粒度语义理解子单元将字符粒度语义理解特征向量和词粒度语义理解特征向量进行融合,生成多粒度语义理解特征向量。这个特征向量将同时考虑字符级和词级的语义信息,以提供更全面的语义理解。关联编码通过对待分析的字符和词进行编码,捕捉待分析的字符和词之间的语义关联,并生成相应的语义理解特征向量。
继而,再通过包含嵌入层的第一语义编码器来对于所述待分析字符的序列进行语义编码处理,从而提取出所述待分析文本数据中有关于字符粒度语义信息的基于全局的上下文语义关联特征信息,以得到字符粒度语义理解特征向量。并且,通过包含嵌入层的第二语义编码器对所述待分析词的序列进行语义编码,以此来捕捉刻画出所述待分析文本数据中有关于词粒度语义信息的基于全局的上下文语义关联特征信息。这样,能够更全面地捕捉到所述待分析文本数据中的文本语义信息,为后续的情感分析提供更可靠的数据支持,从而有利于更准确地判断文本中的情感倾向和情感强度。相应地,在一个具体示例中,所述字符语义关联编码子单元1233,用于:将所述待分析字符的序列通过包含嵌入层的第一语义编码器以得到所述字符粒度语义理解特征向量。所述词关联编码子单元1234,用于:将所述待分析词的序列通过包含嵌入层的第二语义编码器以得到所述词粒度语义理解特征向量。
应可以理解,嵌入层是指一种将离散的字符或词转换为连续向量表示的技术,嵌入层可以将每个字符或词映射到一个低维的连续向量空间中,以捕捉每个字符或词之间的语义关系。具体来说,包含嵌入层的第一语义编码器是指一个模型或组件,第一语义编码器接收待分析字符序列作为输入,并使用嵌入层将每个字符映射为一个连续向量表示,这个嵌入层可以是一个神经网络的一部分,其学习将字符映射到连续向量空间的转换规则,通过包含嵌入层的第一语义编码器,待分析字符序列可以被转换为字符粒度语义理解特征向量。类似地,包含嵌入层的第二语义编码器是指一个模型或组件,第二语义编码器接收待分析词序列作为输入,并使用嵌入层将每个词映射为一个连续向量表示,这个嵌入层同样可以是一个神经网络的一部分,其学习将词映射到连续向量空间的转换规则,通过包含嵌入层的第二语义编码器,待分析词序列可以被转换为词粒度语义理解特征向量。换言之,嵌入层是将离散的字符或词转换为连续向量表示的技术,包含嵌入层的第一语义编码器和第二语义编码器是使用嵌入层将待分析字符序列和词序列转换为字符粒度和词粒度语义理解特征向量的模型或组件。
进一步地,再通过融合所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量,以此来刻画出所述待分析文本数据中基于词粒度的语义关联特征和基于字符粒度的语义关联特征之间的融合关联特征信息,从而得到多粒度语义理解特征向量。进而,再将所述多粒度语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。也就是说,以所述待分析文本数据中的基于词粒度的语义理解特征和基于字符粒度的语义理解特征之间的语义关联特征信息来进行分类处理,从而对于文本中的语义情绪进行充分准确地检测。
更具体地,在本申请实施例中,所述文本情感检测模块130,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。相应地,在一个具体示例中,如图4所示,所述文本情感检测模块130,包括:特征优化因子计算单元131,用于对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量;特征加权优化单元132,用于将所述校正特征向量和所述多粒度语义理解特征向量进行按位置点乘以得到优化多粒度语义理解特征向量;以及,文本情绪评估单元133,用于将所述优化多粒度语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
值得一提的是,这里,按位置点乘是指对两个向量的对应位置进行逐元素相乘的操作。假设有两个向量A和B,它们的长度相同,按位置点乘的结果向量C的每个元素都是A和B对应位置元素的乘积。例如,设A=[a1,a2,a3],B=[b1,b2,b3],则按位置点乘的结果向量C=[a1*b1,a2*b2,a3*b3]。在文本情感检测模块中,特征加权优化单元132将校正特征向量和多粒度语义理解特征向量按位置点乘,得到优化的多粒度语义理解特征向量,可以用来强调或抑制特征向量中的某些特征,从而提高情感分类的准确性。
特别地,在本申请的技术方案中,所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量分别表达待分析文本数据的不同文本尺度下的文本语义编码特征,因此,源数据的划分尺度的差异会由于文本语义特征编码而进一步放大,从而在所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量中引入文本语义特征分布的显著不对齐。这样,在所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量得到的多粒度语义理解特征向量通过分类器进行分类时,所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量的各自的不对齐的特征分布在模型中进行前向传播时会产生信息损失,影响所述多粒度语义理解特征向量通过分类器得到的分类结果的准确性。基于此,本申请的申请人对所述字符粒度语义理解特征向量,例如记为和所述词粒度语义理解特征向量,例如记为/>进行前向传播信息保留融合,以得到校正特征向量/>
相应地,在一个具体示例中,所述特征优化因子计算单元131,用于:以如下融合优化公式对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;其中,所述融合优化公式为:
其中,是所述字符粒度语义理解特征向量,/>是所述词粒度语义理解特征向量,和/>分别表示将特征向量左移/>位和右移/>位,/>为取整函数,/>是所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量的所有特征值的均值,/>表示特征向量的一范数,/>是所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量之间的距离,且/>为以2为底的对数函数,/>和/>分别表示按位置减法和加法,/>和/>为加权超参数,/>是所述校正特征向量。
这里,针对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量/>在网络模型中的前向传播过程中,由于融合后的分类操作产生的在向量尺度上的浮点分布误差和信息损失,通过从均一化信息角度来引入向量的逐位位移操作,来平衡和标准化前向传播过程中的量化误差和信息损失,并通过在融合之前重塑特征参数的分布来引入分布多样性,由此以扩大信息熵的方式进行信息保留(retention)。这样,再通过对所述校正特征向量/>对所述多粒度语义理解特征向量进行点乘加权,就可以减少所述多粒度语义理解特征向量在通过分类器进行分类时的信息损失,从而提升所述多粒度语义理解特征向量通过分类器得到的分类结果的准确性。这样,能够对于大数据中的文本语义进行准确地情感分析,以此来为决策者提供更准确的决策依据,从而有利于帮助企业和组织了解消费者对产品、服务或事件的感受和态度,并且还能够帮助有效地解决商业和医疗方面的疑难杂症问题。
进一步地,在文本情绪评估单元133中,具体地,所述分类器的标签包括文本具有积极情绪(第一标签)、文本具有消极情绪(第二标签),以及文本具有中立情绪(第三标签),其中,所述分类器通过软最大值函数来确定所述多粒度语义理解特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1、所述第二标签p2和所述第三标签p3并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪”这种概念,其只是有三种分类标签且输出特征在这三个分类标签下的概率,即p1、p2和p3之和为一。因此,文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪的分类结果实际上是通过分类标签转化为符合自然规律的多分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪的检测评估标签,因此,在得到所述分类结果后,可基于所述分类结果来对于文本语义中的情绪和感情进行准确检测评估,以此来为决策者提供更准确的决策依据。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
相应地,在一个具体示例中,将所述优化多粒度语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪,包括:使用所述分类器的全连接层对所述优化多粒度语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
综上,基于本申请实施例的基于大数据的智能决策支持系统100被阐明,其可以基于深度学习的语义理解模型对于文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据。
如上所述,根据本申请实施例的基于本申请实施例的基于大数据的智能决策支持系统100可以实现在各种终端设备中,例如具有基于本申请实施例的基于大数据的智能决策支持算法的服务器等。在一个示例中,基于本申请实施例的基于大数据的智能决策支持系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于本申请实施例的基于大数据的智能决策支持系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于本申请实施例的基于大数据的智能决策支持系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于本申请实施例的基于大数据的智能决策支持系统100与该终端设备也可以是分立的设备,并且该基于大数据的智能决策支持系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图5为根据本申请实施例的基于大数据的智能决策支持方法的流程图。图6为根据本申请实施例的基于大数据的智能决策支持方法的系统架构的示意图。如图5和图6所示,根据本申请实施例的基于大数据的智能决策支持方法,其包括:S110,从大数据源提取待分析数据;S120,对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;以及,S130,基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
在一个具体示例中,在上述基于大数据的智能决策支持方法中,对所述待分析数据进行语义理解以得到多粒度语义理解特征向量,包括:对所述待分析数据进行内容降噪以得到降噪后待分析数据;对所述降噪后待分析数据进行内容解析以得到待分析文本数据;以及,对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量。
在一个具体示例中,在上述基于大数据的智能决策支持方法中,对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量,包括:对所述待分析文本数据进行以字符为单位进行划分以得到待分析字符的序列;将所述待分析文本数据进行以词为单位进行划分以得到待分析词的序列;对所述待分析字符的序列进行字符粒度关联语义编码以得到字符粒度语义理解特征向量;对所述待分析词的序列进行词粒度关联语义编码以得到词粒度语义理解特征向量;以及,融合所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量以得到所述多粒度语义理解特征向量。
这里,本领域技术人员可以理解,上述基于大数据的智能决策支持方法中的各个步骤的具体操作已经在上面参考图1到图4的基于大数据的智能决策支持系统100的描述中得到了详细介绍,并因此,将省略其重复描述。
图7为根据本申请实施例的基于大数据的智能决策支持系统的应用场景图。如图7所示,在该应用场景中,首先,从大数据源提取待分析数据(例如,图7中所示意的D),然后,将所述待分析数据输入至部署有基于大数据的智能决策支持算法的服务器中(例如,图7中所示意的S),其中,所述服务器能够使用所述基于大数据的智能决策支持算法对所述待分析数据进行处理以得到用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪的分类结果。
在具体应用场景中,该方法能应用到多个领域,比如消费市场领域,基于对消费者的消费大数据进行分析,能为供货商供货策略的调整和决策提供有效支撑;再如医疗卫生系统,根据患者的用药信息数据、病理数据、评价数据等进行大数据分析,为医护人员制定和调整治疗、服务决策等提供支持等。在大数据时代的今天,利用基于深度学习的语义理解模型来对于相关文本数据进行语义分析,从而进行文本语义的情绪检测,以此来为决策者提供更准确的决策依据,具有十分重要的意义。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (5)

1.一种基于大数据的智能决策支持系统,其特征在于,包括:
数据提取模块,用于从大数据源提取待分析数据;
数据分析模块,用于对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;
以及文本情感检测模块,用于基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪;
所述数据分析模块,包括:
数据降噪单元,用于对所述待分析数据进行内容降噪以得到降噪后待分析数据;
数据内容解析单元,用于对所述降噪后待分析数据进行内容解析以得到待分析文本数据;
以及文本语义理解单元,用于对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量;
所述文本语义理解单元,包括:
字符划分子单元,用于对所述待分析文本数据进行以字符为单位进行划分以得到待分析字符的序列;
词划分子单元,用于将所述待分析文本数据进行以词为单位进行划分以得到待分析词的序列;
字符语义关联编码子单元,用于对所述待分析字符的序列进行字符粒度关联语义编码以得到字符粒度语义理解特征向量;
词关联编码子单元,用于对所述待分析词的序列进行词粒度关联语义编码以得到词粒度语义理解特征向量;
以及多粒度语义理解子单元,用于融合所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量以得到所述多粒度语义理解特征向量;
所述文本情感检测模块,包括:
特征优化因子计算单元,用于对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量;
特征加权优化单元,用于将所述校正特征向量和所述多粒度语义理解特征向量进行按位置点乘以得到优化多粒度语义理解特征向量;
以及文本情绪评估单元,用于将所述优化多粒度语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
2.根据权利要求1所述的基于大数据的智能决策支持系统,其特征在于,所述字符语义关联编码子单元,用于:
将所述待分析字符的序列通过包含嵌入层的第一语义编码器以得到所述字符粒度语义理解特征向量。
3.根据权利要求2所述的基于大数据的智能决策支持系统,其特征在于,所述词关联编码子单元,用于:
将所述待分析词的序列通过包含嵌入层的第二语义编码器以得到所述词粒度语义理解特征向量。
4.根据权利要求3所述的基于大数据的智能决策支持系统,其特征在于,所述特征优化因子计算单元,用于:
以如下融合优化公式对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;
其中,所述融合优化公式为:
其中,/>是所述字符粒度语义理解特征向量,/>是所述词粒度语义理解特征向量,/>和/>分别表示将特征向量左移/>位和右移/>位,/>为取整函数,/>是所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量的所有特征值的均值,/>表示特征向量的一范数,是所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量之间的距离,且/>为以2为底的对数函数,/>和/>分别表示按位置减法和加法,/>和/>为加权超参数,/>是所述校正特征向量。
5.一种基于大数据的智能决策支持方法,其特征在于,包括:
从大数据源提取待分析数据;
对所述待分析数据进行语义理解以得到多粒度语义理解特征向量;
以及基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪;
所述对所述待分析数据进行语义理解以得到多粒度语义理解特征向量,包括:
对所述待分析数据进行内容降噪以得到降噪后待分析数据;
对所述降噪后待分析数据进行内容解析以得到待分析文本数据;
以及对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量;
所述对所述待分析文本数据进行语义理解以得到所述多粒度语义理解特征向量,包括:
对所述待分析文本数据进行以字符为单位进行划分以得到待分析字符的序列;
将所述待分析文本数据进行以词为单位进行划分以得到待分析词的序列;
对所述待分析字符的序列进行字符粒度关联语义编码以得到字符粒度语义理解特征向量;
对所述待分析词的序列进行词粒度关联语义编码以得到词粒度语义理解特征向量;
以及融合所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量以得到所述多粒度语义理解特征向量;
所述基于所述多粒度语义理解特征向量,确定文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪,包括:
对所述字符粒度语义理解特征向量和所述词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量;
将所述校正特征向量和所述多粒度语义理解特征向量进行按位置点乘以得到优化多粒度语义理解特征向量;
以及将所述优化多粒度语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示文本具有积极情绪、文本具有消极情绪或者文本具有中立情绪。
CN202310896499.8A 2023-07-21 2023-07-21 一种基于大数据的智能决策支持系统及方法 Active CN116629275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310896499.8A CN116629275B (zh) 2023-07-21 2023-07-21 一种基于大数据的智能决策支持系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310896499.8A CN116629275B (zh) 2023-07-21 2023-07-21 一种基于大数据的智能决策支持系统及方法

Publications (2)

Publication Number Publication Date
CN116629275A CN116629275A (zh) 2023-08-22
CN116629275B true CN116629275B (zh) 2023-09-22

Family

ID=87592398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310896499.8A Active CN116629275B (zh) 2023-07-21 2023-07-21 一种基于大数据的智能决策支持系统及方法

Country Status (1)

Country Link
CN (1) CN116629275B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271438A (zh) * 2023-07-17 2023-12-22 乾元云硕科技(深圳)有限公司 用于大数据的智能存储系统及其方法
CN117171413B (zh) * 2023-09-07 2024-03-08 滨州八爪鱼网络科技有限公司 用于数字藏品管理的数据处理系统及其方法
CN117236341A (zh) * 2023-09-21 2023-12-15 东方经纬项目管理有限公司 全过程工程咨询一体化系统
CN117251699B (zh) * 2023-11-17 2024-02-02 北京无极慧通科技有限公司 基于人工智能的医疗大数据分析方法及系统
CN117618708B (zh) * 2024-01-26 2024-04-05 吉林大学 用于静脉输液治疗的智能监控系统及方法
CN117649943B (zh) * 2024-01-30 2024-04-30 吉林大学 基于机器学习的整形数据智能分析系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110555109A (zh) * 2019-06-28 2019-12-10 西安理工大学 基于个人计算机电商评论的多粒度观点挖掘方法
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN115169361A (zh) * 2022-08-03 2022-10-11 中国银行股份有限公司 一种情感分析方法及其相关设备
CN115329769A (zh) * 2022-07-05 2022-11-11 中国电子科技集团公司电子科学研究院 基于语义增强网络的平台企业网络舆论情感分析方法
CN116167366A (zh) * 2023-03-02 2023-05-26 华南师范大学 一种方面级情感分类方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110555109A (zh) * 2019-06-28 2019-12-10 西安理工大学 基于个人计算机电商评论的多粒度观点挖掘方法
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN115329769A (zh) * 2022-07-05 2022-11-11 中国电子科技集团公司电子科学研究院 基于语义增强网络的平台企业网络舆论情感分析方法
CN115169361A (zh) * 2022-08-03 2022-10-11 中国银行股份有限公司 一种情感分析方法及其相关设备
CN116167366A (zh) * 2023-03-02 2023-05-26 华南师范大学 一种方面级情感分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116629275A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN107066446B (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111814487B (zh) 一种语义理解方法、装置、设备及存储介质
CN111091004B (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111666500A (zh) 文本分类模型的训练方法及相关设备
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN114818708B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN116415581A (zh) 一种基于智慧教育的教学数据分析系统
CN111858942A (zh) 一种文本抽取方法、装置、存储介质和电子设备
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
JP2022151838A (ja) 低リソース言語からのオープン情報の抽出
CN111523301B (zh) 合同文档合规性检查方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN112632975A (zh) 上下游关系的抽取方法、装置、电子设备及存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant