CN113094476A - 基于自然语言处理风险预警方法、系统、设备及介质 - Google Patents
基于自然语言处理风险预警方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113094476A CN113094476A CN202110634505.3A CN202110634505A CN113094476A CN 113094476 A CN113094476 A CN 113094476A CN 202110634505 A CN202110634505 A CN 202110634505A CN 113094476 A CN113094476 A CN 113094476A
- Authority
- CN
- China
- Prior art keywords
- text data
- text
- early warning
- data set
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于自然语言处理风险预警方法、系统、设备及介质,包括:获取待测文本数据集合,对待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;利用自然语言处理算法处理有效文本数据集合,得到文本特征向量;基于文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用文本分类模型对待测文本数据进行分类得到分类结果;根据分类结果匹配相应预警指标,比较预警指标与待测文本数据内相应指标,判断待测文本数据的风险等级;本发明通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对传统预警方式,风险预警的效率与精度更高。
Description
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于自然语言处理风险预警方法、系统、设备及介质。
背景技术
随着信息技术的不断发展,计算机已然成为了信息传递的一种重要媒介,因此将图像中的文字转换为计算机可进行处理的格式有利于人们对信息的理解、加工和传递。许多视觉领域内和文本相关的任务,如图像检索、风险预测或挖掘等都需要以精确的文本识别结果进行构建。
目前风险预警引擎系统大多采用互联网+监管领域风险预警,通过提前构建数据分析模型,基于海量数据分析出潜在的风险预警信号,并驱动监管主体进行针对性监管,从而缩小监管盲区、提高监管的精准度。
然而,由于数据普遍是文本格式,存在无结构、不抽象、无特征等低质量特点,因此,导致无法精准分析该类数据,不利于对海量数据的深层次挖掘。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于自然语言处理风险预警方法、系统、设备及介质,用于解决现有技术基于自然语言处理风险预警时,无法精准预测风险的问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种基于自然语言处理风险预警方法,包括:
获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
根据所述分类结果匹配相应的预警指标参数,比较所述预警指标与所述待测文本数据内相应指标,判断所述待测文本数据的风险等级。
于所述第一方面的一实施例中,构建所述文本分类模型的步骤,包括:
将所述文本特征向量输入到双向GRU网络,得到第一文本特征向量,利用自注意力层对所述第一文本特征向量进行加权计算,得到第二文本特征向量;
调用知识库中概念图谱对所述文本特征向量进行概念化处理,得到由概念向量集合构成的概念集;所述第二文本特征向量经池化层处理得到第三特征向量;
在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个第三特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征向量;
结合所述第二文本特征向量与概念集特征向量,利用反向传播算法进行训练得到文本分类模型。
于所述第一方面的一实施例中,还包括:通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:
其中,M为训练集大小,N为类别数,R为预测类别,λ||θ||2为正则项,R’为实际类别。
于所述第一方面的一实施例中,所述获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合的步骤,包括:
删除所述待预测文本数据集合中地名与时间,得到删除后的第一文本数据集合;对所述第一文本数据集合采用分词算法进行分词,得到分词后的第二文本数据集合;对所述第二文本数据集合采用词语过滤方法进行过滤,得到有效文本数据集合,所述词语过滤方法至少包括停用词过滤和低频词过滤。
于所述第一方面的一实施例中,还包括:采用TF-IDF方式提取所述有效文本数据集合,得到相应的文本特征向量。
于所述第一方面的一实施例中,还包括:
根据分类结果对应的预警领域与待测文本数据的风险等级确定关联的干预措施生成干预方案,其中,所述干预方案从关联的习惯、药物、就医、知识和金融的一个或多个维度进行干预。
于所述第一方面的一实施例中,还包括:
当所述待测文本数据对应的分类结果为一个或多个时,根据所述分类结果所对应的预警领域逐一筛选待测文本数据的指标参数;利用不同预警领域对应的预警指数选择配对待测文本数据的指标参数进行比对,如果比较结果在预警指数范围内,则无风险预警;如果比较结果在预警指数范围外,则产生风险预警,并根据比较结果确定预警等级。
本发明的第二方面提供一种基于自然语言处理风险预警系统,包括:
数据集获取模块,用于获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
向量提取模块,利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
数据分类模块,用于基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
风险预警模块,用于根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标参数,判断所述待测文本数据的风险等级。
本发明的第三方面提供一种基于自然语言处理风险预警设备,包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现上述的基于自然语言处理风险预警方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于使所述计算机执行上述的基于自然语言处理风险预警方法。
如上所述,本发明所述的基于自然语言处理风险预警方法、系统、设备及介质的一个技术方案,具有以下有益效果:
本发明通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;同时,利用文本分类模型能够精准分类;通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对于传统预警方式,风险预警的效率与精度更高。
附图说明
图1显示为本发明提供的一种基于自然语言处理风险预警方法流程图;
图2显示为本发明提供的一种基于自然语言处理风险预警方法中文本分类模型的构建流程图;
图3显示为本发明提供的一种文本分类模型的结构示意图;
图4显示为本发明提供的一种基于自然语言处理风险预警系统结构框图;
图5显示为本发明提供的一种基于自然语言处理风险预警设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明主要解决技术问题是,在用户体检时,会产生许多体检表单,该体检表单大多是以文本形式体现,例如,心率、肝功能、肿瘤标志物等指标参数,而现在医院往往是通过人工方式进行标记、统计,从而确定用户的体检是否有异样。
需要说明的是,一张表单可能是只显示某个器官的体检数据,也可能是一张表单包含多个器官的数据,造成文本数据的表单形式多样复杂;同时,采用人工方式进行统计效率低下、且容易出错,因此,亟需一种能够自动根据文本数据进行风险预警的方式。
请参阅图1,为本发明提供的一种基于自然语言处理风险预警方法流程图,包括:
步骤S1,获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
其中,待测文本数据集合为用户通过体检后生成的各种表单,且该表单是电子档形式的文本数据。待测文本数据集合主要包括用户的基本信息、体检信息等方面,所述基本信息包括用户的性别、年龄、职业、婚姻状况等个人基本信息;所述体检信息包括用户的体检信息,例如:心率、肝功能、血脂、尿常规、肾功能、肿瘤标志物等。
当然,待测文本数据集合还可以包括健康状态、家族史、疾病史等方面,所述健康状态包括用户是否存在身体缺陷、是否存在先天疾病以及是否近视等信息。所述家族史包括用户的家族病史;所述疾病史包括用户的曾患疾病信息。
具体地,通过删除所述待预测文本数据集合中地名与时间,得到删除后的第一文本数据集合;对所述第一文本数据集合采用分词算法进行分词,得到分词后的第二文本数据集合;对所述第二文本数据集合采用词语过滤方法进行过滤,得到有效文本数据集合,所述词语过滤方法至少包括停用词过滤和低频词过滤。
例如,停用词过滤:根据专家知识总结的停用词字典Stop_Dict(w),对分词结果中w∈Stop_Dict进行过滤;在确定文本属性时,一些词语被称为停用词(stop word),比如“的”、“是”、“这”、“那”等等;功能词又叫结构词或虚词,指没有完整词汇意义,但是有语法意义或语法功能的词,常见的有代词、数词、介词、连词和感叹词在确定文本属性时,将这些停止词以及功能词进行剔除,并去除标点符号。词语过滤针对分词的结果进行,包含停用词过滤和低频词过滤。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,这里很多分词算法都可以使用,如基于字符串匹配的分词算法、基于规则的分词算法或者基于神经网络的分词算法等。
低频词可以用于表示日常使用频率很低的词,也可以是其统计频数低于某个阈值的词。
又例如,待预测文本数据集合中包括多个用户ID。用户ID对应的身份信息集合A={2021.1.28,北京的甲,同时参加体检项目1、体检项目2……体检项目N},首先去除地名、时间,得到的集合A1={的甲,参加体检项目1、体检项目2……体检项目N },进行停用词过滤,得到的集合A2={甲,参加体检项目1、体检项目2……体检项目N},进行分词操作得到集合A3={甲,参加,体检项目1、体检项目2……体检项目N }。在具体应用过程中,还可以将一些不必要的形容词或者定语去除。
步骤S2,利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
具体地,采用TF-IDF(erm Frequency- reverse Document Frequency)方式提取所述有效文本数据集合,得到相应的文本特征向量,由于特征向量是基于绝对频率,可能在所有文档中都经常出现,通过在TF-IDF模型计算中使用了缩放或归一化因子能够克服上述问题。
例如,通过将词向量按照词频以及词在文档数据中重要性提取文本特征向量,例如,通过词频是否大于预设值,若是,则舍弃;若否,依次计算词频、逆文档词频,从而计算TF-IDF的频率,根据该频率抽取有效文本数据集合的词得到文本特征向量。
步骤S3,基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
其中,多头注意机制属于一种特殊的自注意机制,可以通过输入层输出的词向量序列构建序列的对称相似性矩阵。
Bi-GRU网络用于获取多头自注意层输出序列的上下文内信息。在信息提取的任务中,RNN(Recurrent Neural Network)是使用最多的模型。LSTM(Long-Short TermMemory)相对于RNN引入了长期记忆和门结构,缓解了RNN长期去依赖性的问题,但同时也增加了模型的计算量。而GRU(gate recurrent unit)则进一步优化了LSTM,只保留了newgate和reset gate两个门操作,因此GRU单元的参数更少,收敛速度比LSTM单元更快。
步骤S4,根据所述分类结果匹配相应的预警指标参数,比较所述预警指标与所述待测文本数据内相应指标,判断所述待测文本数据的风险等级。
具体地,心脏病基础数据包括美国心脏病协会、欧洲心脏病协会和中华医学会的最新临床诊疗指南的文本数据,以及华西医院心脏内科的诊疗数据;
例如,如果分类结果属于心脏检查项目,选择与心脏病对应的预警指标,如,基础数据包括美国心脏病协会、欧洲心脏病协会和中华医学会的最新临床诊疗指南的文本数据,以及华西医院心脏内科的诊疗数据中的参考指标作为预警指标。
在本实施例中,通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;同时,利用文本分类模型能够精准分类;通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对于传统预警方式,风险预警的效率与精度更高。
请参阅图2,为本发明提供的一种基于自然语言处理风险预警方法中文本分类模型的构建流程图,详述如下:
步骤S201,将所述文本特征向量输入到双向GRU网络,得到第一文本特征向量,利用自注意力层对所述第一文本特征向量进行加权计算,得到第二文本特征向量;
步骤S202,调用知识库中概念图谱对所述文本特征向量进行概念化处理,得到由概念向量集合构成的概念集;所述第二文本特征向量经池化层处理得到第三特征向量;
步骤S203,在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个第三特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征向量;
步骤S204,结合所述第二文本特征向量与概念集特征向量,利用反向传播算法进行训练得到文本分类模型。
具体地,通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:
其中,M为训练集大小,N为类别数,R为预测类别,λ||θ||2为正则项,R’为实际类别。
在本实施例中,采用反向传播算法,以及引入 L2正则化以避免网络模型过拟合问题。L2 正则化通过在损失函数中加入 L2 范数作为惩罚项,使得模型拟合更倾向于低维的模型,可以有效防止过拟合。相比于L1正则化会产生稀疏性问题,L2正则化可以使系数向量更加平滑,避免稀疏性问题。
请参阅图3,为本发明提供的一种文本分类模型的结构示意图,详述如下:
融合知识图谱、注意力机制和双向GRU网络构建的文本分类模型,该模型借鉴了神经网络翻译模型的设计思想,采用基于Transformer的编码器-解码器网络结构,同时,融合概念图片获取文本的先验知识,如图3所示,该网络模型主要包括以下两部分:
第一部分,将文本特征向量经过Bi-GRU提取第一文本特征,并利用多头自注意力层对重要文本信息进行加权,获得第二文本特征。
第二部分,通过调用微软的知识库中概念图谱的API接口,获取文本概念集并向量化,通过与文本特征向量进行Attention计算,提升概念集中与文本关系密切的概念权重,得到最终概念集特征。
例如,将获得文本特征向量 E=[E1,E2,…,En]作为 Bi-GRU的输入。前向 GRU 按照正常的顺序读取输入序列(E1~En ),反向GRU 则按逆序读取输入序列(En~ E1),每个t时刻的输入向量Ex经过门控循环单元的计算,获取每个时刻的前向隐藏状态和反向隐藏状态,将各个时刻的前向隐藏状态与其对应时刻的反向隐藏状态连接,得到该时刻的隐藏状态。
随后将每个时刻隐藏状态输入自注意力层,对每个时间步输入的词根据注意力计算进行加权,使重要的词语获得更高的权重。
即Bi-GRU层输出的隐藏状态,目的是在输入序列内部进行注意力计算,寻找序列内部的联系。通过自注意力层计算出注意力权重,将Bi-GRU输出的t时刻的隐藏状态加权平均:最终输出特征矩阵,即,第二特征。
又例如,使用微软发布的Concept Graph知识图谱对文本特征向量进行概念化,获取文本相关概念集。将每条文本通过知识库获取文本的概念集合C=(c1,c2,…,cm),cx表示第x个概念集中的概念向量。为增加重点概念向量的权重,减小与文本无关的概念向量对结果的影响,首先将第二文本特征矩阵经过最大池化层,转换为特征向量y,随后引入注意力机制,计算概念集中第x向量与其文本特征向量y的关系权重。
在概念集内部加入自注意力机制并进行注意力计算,以获取每个概念cx在整个概念集中的重要性权重;注意力机制赋予重要概念较大的权重,赋予不重要的概念极小的权重(接近于零),以突出概念集中重要概念,获取每个概念向量的注意力权重后,对每个概念向量进行加权计算,得到最终概念集特征。
在本实施例中,构建一种融合知识图谱和注意力机制的神经网络模型,借助现有知识库获取文本相关的概念集,以获得文本相关先验知识,弥补文本缺乏上下文信息的不足。将文本特征向量以及文本的概念集作为模型的输入,运用编码器-解码器模型对文本特征向量与概念集进行编码,利用注意力机制计算每个概念权重值,减小无关噪声概念对文本分类的影响,在此基础上,通过双向门控循环单元编码文本输入序列,获取文本分类特征,从而更准确地进行文本分类。
在另一些实施例中,当所述待测文本数据对应的分类结果为一个或多个时,即,分类结果可能对应多个分类标签,例如,采血项目,由于采血项目生成的采血数据包含多项指标,如、常规体检采血检查:血常规(白细胞、红细胞、血红蛋白、血小板等)、肝功能、肾功能、空腹血糖、血脂、乙肝两对半等。非常规体检采血可检查:血液流变学、纤维蛋白原、肿瘤标志物、甲状腺功能等;按照分类结果所对应的预警领域逐一筛选待测文本数据的指标参数;利用不同预警领域对应的预警指数选择配对待测文本数据的指标参数进行比对,如果比较结果在预警指数范围内,则无风险预警;如果比较结果在预警指数范围外,则产生风险预警,并根据比较结果确定预警等级。
例如,如果是用户的血常规项目检查,筛选待测文本书中的指标参数,如,红细胞(RBC),血红蛋白(Hb),白细胞(WBC)及白细胞分类计数,红细胞比容(HCT)及血小板(PL);根据用户信息,如获取用户的年龄、性别,如,血红蛋白(Hb):男性 120~160 g/L、女性 110~150g/L、新生儿 170~200g/L,选择不同预警指数作为判断依据。如果用户的某一项指标参数超出预设预警指数范围,超出预警指标范围的指标参数的数目,并根据超出的严重程度确定预警等级,例如,超过预设预警指标范畴的三分之一、三分之二、一倍等,可依次将风险等级列为风险高、风险偏高、重大风险。
需要说明的是,某一个体检项目可能应对有多个风险等级,即,每个指标参数对应有加权系数,多个指标参数的风险因子进行累加,就能得到该用户关于该类体检项目所对应的风险等级。
在另一些实施例中,根据分类结果对应的预警领域与待测文本数据的风险等级确定关联的干预措施生成干预方案,其中,所述干预方案从关联的习惯、药物、就医、知识和金融的一个或多个维度进行干预。
具体地,所述干预方案包括预防方案、治疗方案和/或康复方案。其中,所述预防方案是对用户将来可能患有的疾病进行的干预方案,所述治疗方案是对用户已经患有而尚未开始治疗的疾病进行的干预方案,所述康复方案是对用户已经开始治疗但尚未治愈的疾病进行的干预方案。
例如,生活习惯方面的干预方案是根据分类结果所属预警领域以及风险等级系数选取与用户的生活习惯相关的、且与所述相关疾病相关联的干预措施,进而生成的干预方案。所述生活习惯干预方案例如:适量减少禽畜肉的摄入,继续保持少吃高脂肪食物,增加蔬菜的摄入量,清淡饮食。无论所述相关疾病的患病概率如何,所述生活习惯干预方案均适用。
药物方面的干预方案是根据分类结果所属预警领域以及风险等级系数确定相关疾病的患病概率、所述相关疾病关联的干预措施以及所述用户的健康档案生成药物干预方案。其中,所述药物干预方案包括用药推荐、用药指导等,用于患病概率大于第一阈值的情况。其中,所述第一阈值为经验值,其取值可以根据实际需求设置。
就医方面干预方案是根据分类结果所属预警领域以及风险等级系数对应的所述相关疾病关联的干预措施以及所述用户的健康档案生成就医干预方案。其中,所述就医干预方案包括就医科室、病症、医院等的推荐,用于所述患病概率大于第二阈值的情况。其中,所述第二阈值也为经验值,其取值可以根据实际需求设置。
知识方面干预方案是根据分类结果所属预警领域以及风险等级系数对应的所述相关疾病关联的干预措施所述相关疾病关联的干预措施以及所述用户的健康档案生成知识干预方案。其中,所述知识干预方案包括一种或多种知识干预措施,所述知识干预措施用于为用户提供所述相关疾病的知识和/或科普信息。例如,若用户的相关疾病包括高血压,则所述知识干预措施包括高血压相关的知识和/或科普信息。
金融方面干预方案是根据分类结果所属预警领域以及风险等级系数确定所述相关疾病的患病概率、所述相关疾病关联的干预措施以及所述用户的健康档案生成金融干预方案。其中,所述金融干预方案包括一种或多种金融干预措施,所述金融干预措施用于为用户提供与所述相关疾病或用户的健康状况相关的金融方案,包括但不限于理财购买、保险购买等。
本实施例中,通过对所述疾病和所述风险因素的进一步细分,使得预警指标的内容更加丰富,有利于提升所述干预方案的精确性。
请参阅图5,为本发明提供的一种基于自然语言处理风险预警系统结构框图,所述基于自然语言处理风险预警系统1详述如下:
数据集获取模块11,用于获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
向量提取模块12,利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
数据分类模块13,用于基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
风险预警模块14,用于根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标,判断所述待测文本数据的风险等级。
其中,需要说明的是,上述数据集获取模块11、向量提取模块12、数据分类模块13与风险预警模块14均是以计算机程序方式嵌入到存储模块10。
还需要说明的是,基于自然语言处理风险预警方法与基于自然语言处理风险预警系统为一一对应的关系,在此,基于自然语言处理风险预警系统所涉及的技术细节与技术效果和上述识别方法相同,在此不一一赘述,请参照上述基于自然语言处理风险预警方法。
下面参考图5,其示出了适于用来实现本公开实施例的基于自然语言处理风险预警设备(例如电子设备设备或服务器500的结构示意图。本公开实施例中的电子设备设备可以包括但不限于诸如手机、平板电脑、膝上型电脑、台式电脑、电脑一体机、服务器、工作站、电视、机顶盒、智能眼镜、智能手表、数码相机、MP4播放器、MP5播放器、学习机、点读机、电纸书、电子词典、车载终端、虚拟现实(VirtualReality,VR)播放器或增强现实(AugmentedReality,AR)播放器等的固定器。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:执行上述步骤S1到步骤S4的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;同时,利用文本分类模型能够精准分类;通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对于传统预警方式,风险预警的效率与精度更高,有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于自然语言处理风险预警方法,其特征在于,包括:
获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标参数,判断所述待测文本数据的风险等级。
2.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,构建所述文本分类模型的步骤,包括:
将所述文本特征向量输入到双向GRU网络,得到第一文本特征向量,利用自注意力层对所述第一文本特征向量进行加权计算,得到第二文本特征向量;
调用知识库中概念图谱对所述文本特征向量进行概念化处理,得到由概念向量集合构成的概念集;所述第二文本特征向量经池化层处理得到第三特征向量;
在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个第三特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征向量;
结合所述第二文本特征向量与概念集特征向量,利用反向传播算法进行训练得到文本分类模型。
4.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,所述获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合的步骤,包括:
删除所述待预测文本数据集合中地名与时间,得到删除后的第一文本数据集合;对所述第一文本数据集合采用分词算法进行分词,得到分词后的第二文本数据集合;对所述第二文本数据集合采用词语过滤方法进行过滤,得到有效文本数据集合,所述词语过滤方法至少包括停用词过滤和低频词过滤。
5.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,还包括:采用TF-IDF方式提取所述有效文本数据集合,得到相应的文本特征向量。
6.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,还包括:
根据分类结果对应的预警领域与待测文本数据的风险等级确定关联的干预措施生成干预方案,其中,所述干预方案从关联的习惯、药物、就医、知识和金融的一个或多个维度进行干预。
7.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,还包括:
当所述待测文本数据对应的分类结果为一个或多个时,根据所述分类结果所对应的预警领域逐一筛选待测文本数据的指标参数;利用不同预警领域对应的预警指数选择配对待测文本数据的指标参数进行比对,如果比较结果在预警指数范围内,则无风险预警;如果比较结果在预警指数范围外,则产生风险预警,并根据比较结果确定预警等级。
8.一种基于自然语言处理风险预警系统,其特征在于,包括:
数据集获取模块,用于获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;
向量提取模块,利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;
数据分类模块,用于基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;
风险预警模块,用于根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标参数,判断所述待测文本数据的风险等级。
9.一种基于自然语言处理风险预警设备,其特征在于,包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现权利要求1至7中任一所述的基于自然语言处理风险预警方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于使计算机执行权利要求1至7中任一所述的基于自然语言处理风险预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634505.3A CN113094476A (zh) | 2021-06-08 | 2021-06-08 | 基于自然语言处理风险预警方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634505.3A CN113094476A (zh) | 2021-06-08 | 2021-06-08 | 基于自然语言处理风险预警方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113094476A true CN113094476A (zh) | 2021-07-09 |
Family
ID=76664445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110634505.3A Withdrawn CN113094476A (zh) | 2021-06-08 | 2021-06-08 | 基于自然语言处理风险预警方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094476A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036258A (zh) * | 2021-10-19 | 2022-02-11 | 东南大学 | 一种基于自然语言处理的桥梁技术状况等级快速识别方法 |
CN116629620A (zh) * | 2023-07-26 | 2023-08-22 | 太平金融科技服务(上海)有限公司深圳分公司 | 一种风险等级确定方法、装置、电子设备及存储介质 |
CN117993868A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司济宁供电公司 | 基于双模态注意力的电网工程项目审计预警方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834989A (zh) * | 2015-03-27 | 2015-08-12 | 首都医科大学附属北京世纪坛医院 | 一种多病种慢性病信息管理系统 |
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
CN110867231A (zh) * | 2019-11-18 | 2020-03-06 | 中山大学 | 基于文本分类的疾病预测方法、装置、计算机设备及介质 |
CN111581383A (zh) * | 2020-04-30 | 2020-08-25 | 上海电力大学 | 一种基于ERNIE-BiGRU的中文文本分类方法 |
CN112259232A (zh) * | 2020-10-26 | 2021-01-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习的vte风险自动评估系统 |
US20210027018A1 (en) * | 2019-07-22 | 2021-01-28 | Advanced New Technologies Co., Ltd. | Generating recommendation information |
-
2021
- 2021-06-08 CN CN202110634505.3A patent/CN113094476A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834989A (zh) * | 2015-03-27 | 2015-08-12 | 首都医科大学附属北京世纪坛医院 | 一种多病种慢性病信息管理系统 |
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
US20210027018A1 (en) * | 2019-07-22 | 2021-01-28 | Advanced New Technologies Co., Ltd. | Generating recommendation information |
CN110867231A (zh) * | 2019-11-18 | 2020-03-06 | 中山大学 | 基于文本分类的疾病预测方法、装置、计算机设备及介质 |
CN111581383A (zh) * | 2020-04-30 | 2020-08-25 | 上海电力大学 | 一种基于ERNIE-BiGRU的中文文本分类方法 |
CN112259232A (zh) * | 2020-10-26 | 2021-01-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习的vte风险自动评估系统 |
Non-Patent Citations (1)
Title |
---|
丁辰晖等: "融合知识图谱与注意力机制的短文本分类模型", 《计算机工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036258A (zh) * | 2021-10-19 | 2022-02-11 | 东南大学 | 一种基于自然语言处理的桥梁技术状况等级快速识别方法 |
CN116629620A (zh) * | 2023-07-26 | 2023-08-22 | 太平金融科技服务(上海)有限公司深圳分公司 | 一种风险等级确定方法、装置、电子设备及存储介质 |
CN116629620B (zh) * | 2023-07-26 | 2024-02-02 | 太平金融科技服务(上海)有限公司深圳分公司 | 一种风险等级确定方法、装置、电子设备及存储介质 |
CN117993868A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司济宁供电公司 | 基于双模态注意力的电网工程项目审计预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112992317B (zh) | 一种医学数据处理方法、系统、设备及介质 | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
CN113094476A (zh) | 基于自然语言处理风险预警方法、系统、设备及介质 | |
CN113094509B (zh) | 文本信息提取方法、系统、设备及介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
JP2020518050A (ja) | エンティティ間のコンテキスト的類似度の学習及び適用 | |
CN115440346B (zh) | 基于半监督学习的痤疮分级方法、系统、设备及存储介质 | |
US20150149215A1 (en) | System and method to detect and visualize finding-specific suggestions and pertinent patient information in radiology workflow | |
CN115858886B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN113792115B (zh) | 实体相关性确定方法、装置、电子设备及存储介质 | |
CN115171871A (zh) | 一种基于知识图谱与注意力机制的心血管疾病预测方法 | |
CN112308131A (zh) | 样本拒识方法、装置、设备及存储介质 | |
CN114758742A (zh) | 病历信息处理方法、装置、电子设备及存储介质 | |
CN112052424B (zh) | 一种内容审核方法及装置 | |
CN117557331A (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
CN111696674B (zh) | 一种电子病历的深度学习方法及系统 | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
JP5933863B1 (ja) | データ分析システム、制御方法、制御プログラム、および記録媒体 | |
CN113158682B (zh) | 产品名称识别方法、装置、电子设备和介质 | |
CN114461085A (zh) | 医疗输入推荐方法、装置、设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
Zhang et al. | Cost-sensitive ensemble classification algorithm for medical image | |
US20200388398A1 (en) | Learning and applying contextual similarities between entities | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210709 |
|
WW01 | Invention patent application withdrawn after publication |