CN113742452B - 基于文本分类的舆情监测方法、装置、设备及介质 - Google Patents
基于文本分类的舆情监测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113742452B CN113742452B CN202111050830.1A CN202111050830A CN113742452B CN 113742452 B CN113742452 B CN 113742452B CN 202111050830 A CN202111050830 A CN 202111050830A CN 113742452 B CN113742452 B CN 113742452B
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- medicine
- news
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及人工智能技术领域,尤其涉及一种基于文本分类的舆情监测方法、装置、设备及介质。该基于文本分类的舆情监测方法包括获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果;若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;将所述关键信息以及所述分类结果转换为结构化输出。该方法可有效提高舆情分析的准确率和效率,且可同时满足实时计算需求。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于文本分类的舆情监测方法、装置、设备及介质。
背景技术
目前,药物的可获取和合理使用是当下社会民生重点关注的话题。一方面,当下虽有多种肿瘤特效药和罕见病药物已被纳入医保目录且大幅降价,但依然有大量患者无法通过正规渠道或者合理的价格购买到相关药物。另一方面,国家重点监控的合理用药目录涉及市场规模大,医护方在执行政策过程中可能面临困难,致使仍存在部分患者方在使用过程中由于未合理使用,导致出现不良反应等负面现象。其中,患者往往会通过一些媒体舆论途径针对上述负面现象发声,因此,通过对新闻类舆情的监控分析有助于当下更及时准确的了解市场上存在的药物不可及与不合理使用的情况。
当前现有的舆情监控方法一般主要是对舆情信息按照一定的频率大范围获取,但对获取后的海量文本分析工作只能通过人工进行文本筛选并分析舆情所关注的重点信息,从而产生分析报告,导致当前舆情监控方法的监控效率低且人力成本高。
发明内容
本发明实施例提供一种基于文本分类的舆情监测方法、装置、设备及介质,以解决目前当前舆情监控方法的监控效率低且人力成本高的问题。
一种基于文本分类的舆情监测方法,包括:
获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果;
若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;
将所述关键信息以及所述分类结果转换为结构化输出。
一种基于文本分类的舆情监测装置,包括:
新闻文本预识别模块,用于获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果;
文本关键信息抽取模块,用于若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;
关键信息结构化转换模块,用于将所述关键信息以及所述分类结果转换为结构化输出。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于文本分类的舆情监测方法的步骤。
一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于文本分类的舆情监测方法的步骤。
上述基于文本分类的舆情监测方法、装置、设备及介质中,通过获取待分析的新闻文本,并将新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果,以从文本的整体语义上识别所采集到的新闻文本是否为药品相关的舆情,以避免文本中用户没有表达目标舆情所需的目标语义,但由于一词多义使用了某些预设词汇表中的预设词,导致舆情监测误判的问题。然后根据识别结果进行判断,若识别结果为目标舆情,则调用目标舆情对应的检索词典对新闻文本进行关键词匹配,以提取新闻文本中与目标舆情对应的关键信息,以将目标舆情对应的新闻文本中的关键信息抽取出来,以将关键信息以及分类结果转换为结构化输出并展示新闻文本中的关键信息,以使用户可直观查看该文本中的关键信息,而不是仅仅局限于模型判断属于目标舆情,但无法知晓新闻文本中哪些信息属于目标舆情的关键信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于文本分类的舆情监测方法的一应用环境示意图;
图2是本发明一实施例中基于文本分类的舆情监测方法的一流程图;
图3是图2中步骤S201的一具体流程图;
图4是本发明一实施例中基于文本分类的舆情监测方法的一流程图;
图5是图3中步骤S301的一具体流程图;
图6是本发明一实施例中基于文本分类的舆情监测方法的一流程图;
图7是本发明一实施例中基于文本分类的舆情监测装置的一示意图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该基于文本分类的舆情监测方法可应用在如图1的应用环境中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。进一步地,本方法可应用在任意监测场景下的舆情监控,为进一步描述本方案,以下描述以本方法应用在药品监测场景为例进行说明。
在一实施例中,如图2所示,提供一种基于文本分类的舆情监测方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取待分析的新闻文本,并将新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果。
其中,新闻文本可通过设置定时任务采集或实时采集的方式从公开的平台中采用可实现的信息采集手段采集得到,例如通过爬虫方式采集。该舆情文本识别模型为预先训练好的用于对新闻文本进行识别,以初步判断该新闻文本是否为所需监控的目标舆情。
该舆情文本识别模型可用于识别一个或多个目标舆情,可根据实际需要进行调整,此处不做限定。具体地,药品监测场景主要为监测药品对应相关舆情的场景,于本实施例中,该目标舆情可包括药品不可及以及医疗大事件。其中,药品不可及指某药品由于存在某些因素(例如价格无法接受、获取困难以及使用不合理等)导致用户无法方便获得以及合理使用该药品。医疗大事件主要指某药品存在药品质量(例如假冒、过期)等问题或者用户在使用后产生休克、过敏、去世等不良的药物副作用。
可以理解地是,由于目前大多数采用预设词汇表对文本进行关键词匹配的方式对文本进行舆情分析,但在实际情况下人们在舆情信息中不一定会按照预设词汇表去表达,同时由于中文语境下存在大量一词多义的现象,可能出现某文本出现了预设词汇表中的预设词,但其含义并不是目标舆情所需表达的目标语义,导致出现关键词匹配过程中被误判。故本实施例中该舆情文本识别模型可从文本的整体语义上识别所采集到的新闻文本是否为药品相关的舆情,以避免文本中用户没有表达目标舆情所需的目标语义,但由于一词多义使用了某些预设词汇表中的预设词,导致舆情监测误判的问题。
S202:若识别结果为目标舆情,则调用目标舆情对应的检索词典对新闻文本进行关键词匹配,以提取新闻文本中与目标舆情对应的关键信息;其中,检索词典包括与目标舆情对应的完全匹配词、模糊匹配词以及与模糊匹配词对应的同义词。
其中,检索词典是指不同目标舆情对应的用于对文本中不同目标舆情对应的关键信息进行抽取的预设词汇表。具体地,不同的目标舆情预先设置有对应的检索词典,该检索词典中包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词。该完全匹配词指在进行关键词匹配时,需要全词匹配才可确认为匹配成功,例如该完全匹配词为cde,则该新闻文本中只有存在完整的cde才可认定匹配成功。于本实施例中该完全匹配词可为药品全称,例如阿那曲唑、安吖啶、白消安等。
而模糊匹配词是指与完全匹配词所表达的语义相近的匹配词,即该新闻文本中只要存在上述模糊匹配词,可认为匹配成功,于本实施例中该模糊匹配词可为药品的别称(例如阿那曲唑-瑞婷、白消安-马利兰)、泛称(例如疫苗、中药、西药等),即文本中的药品可能存在药品的全称、别称或泛称等模糊匹配词,如仅采用药品全称进行全词匹配,则会忽略掉药品的其他代表词,从而导致药品监测的内容不够全面,故本实施例中通过增加药品的模糊匹配词,即药品的全称、别称或泛称等进行匹配,以抽取更全面的药品信息。
进一步地,在定位到文中药品之后,还需要针对文本所反映的用户情绪进一步识别到对应的情绪词,不同的目标舆情其对应的情绪词,于本实施例中,对于目标情绪为药品不可及,其对应的情绪词包括但不限于价格太贵、买不到、未市场准入、冷链/运输有问题等类别。对于目标情绪为医疗大事件,其对应的情绪词包括假冒伪劣、药物滥用、依赖/成瘾性、休克、死亡、质量不合格、其他副作用等类别,不同类别对应一个或多个情绪词。
示例性地,对于上述类别对应的情绪词可如下表所示:
进一步地,由于预设检索词典中的预设关键词为预先根据经验设置或采集的多方经验进行综合设定,但仍有可能出现遗漏,故本实施例中对于模糊匹配增加对应的一个或多个相似词,从而根据所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词构建的检索词典进行u案件信息的抽取,与仅采用关键词表分析舆情的方式相比,可有效避免预设关键词的定义不够全面的问题,能够确保关键信息抽取过程无遗漏,避免漏判。
S203:将关键信息以及分类结果转换为结构化输出。
具体地,在获取关键信息以及分类结果后,通过调用JSON转换函数以将关键信息以及所述分类结果转换为JSON结构化输出,以直接输出在前端页面中显示或将该结构化数据存储在数据库中,以节省存储空间,且可同时具有更快的解析响应,便于后续可直接对该部分数据进行处理(例如显示在前端页面中,可直接在前端界面中对该部分结构化数据进行编辑操作),无需进行其他转换处理。
示例性地,在显示该部分数据时,可将该新闻文本中对应的关键信息突出标识,例如标红或标黄,同时针对不同的目标舆情也可采用不同的方式区分标识,例如通过背景颜色、文字颜色等。
本实施例中,通过获取待分析的新闻文本,并将新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果,以从文本的整体语义上识别所采集到的新闻文本是否为药品相关的舆情,以避免文本中用户没有表达目标舆情所需的目标语义,但由于一词多义使用了某些预设词汇表中的预设词,导致舆情监测误判的问题。然后根据识别结果进行判断,若识别结果为目标舆情,则调用目标舆情对应的检索词典对新闻文本进行关键词匹配,以提取新闻文本中与目标舆情对应的关键信息,以将目标舆情对应的新闻文本中的关键信息抽取出来,以将关键信息以及分类结果转换为结构化输出并展示新闻文本中的关键信息,以使用户可直观查看该文本中的关键信息,而不是仅仅局限于模型判断属于目标舆情,但无法知晓新闻文本中哪些信息属于目标舆情的关键信息。
在一实施例中,如图3所示,所述舆情文本识别模型包括药品不可及识别模型以及医疗大事件识别模型;步骤S201中,即将所述新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果,具体包括如下步骤:
S301:将新闻文本输入至药品不可及识别模型进行识别,以判断新闻文本是否为药品不可及;以及,将新闻文本输入至医疗大事件识别模型中进行识别,以判断新闻文本是否为医疗大事件。
S302:若新闻文本为药品不可及和/或医疗大事件,则获取新闻文本属于目标舆情的识别结果。
本实施例中,不同的目标舆情通过对应的文本识别模型进行文本识别,即舆情文本识别模型包括用于识别药品不可及的药品不可及识别模型以及用于识别医疗大事件的医疗大事件识别模型。具体地,将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及;以及,将所述新闻文本输入至医疗大事件识别模型中进行识别,以判断所述新闻文本是否为医疗大事件,当新闻文本为药品不可及和/或医疗大事件,则获取所述新闻文本属于目标舆情的识别结果,即当识别结果指示新闻文本为药品不可及、医疗大事件或者既是药品不可及又是医疗大事件的均为目标舆情。
在一实施例中,所述药品不可及识别模型以及医疗大事件识别模型的模型结构相同,均包括依次连接的双向长短时记忆层、注意力机制层以及全连接层;其中,所述双向长短时记忆层用于提取新闻文本的正逆序文本特征;所述注意力机制层用于基于所述正逆序文本特征,计算注意力向量;所述全连接层用于根据所述注意力向量进行识别,以输出识别结果。
其中,新闻文本即为新闻文本。该双向长短时记忆层(即Bi-lstm)用于提取新闻文本的正逆序文本特征,以将时序数据按照正序和逆序数据综合上下文,以从全局角度提取文本特征。注意力机制层(即self-attetion)用于根据正逆序文本特征,计算不同字符对应的权重值,即在句子之间的依赖关系,从而对不同的字符进行加权处理,得到注意力向量。全连接层用于根据所述注意力向量进行识别,即将注意力向量映射至对应的类别空间,从而输出识别结果,该识别结果用于指示该新闻文本是否为药品不可及或医疗大事件。
可以理解地是,在训练药品不可及识别模型以及医疗大事件识别模型时,可通过构建四种类别的训练样本,即仅为药品不可及的正样本,仅为医疗大事件的正样本,两者皆是的正样本,两者皆不是的负样本。具体地,通过仅为药品不可及的正样本、两者皆是的正样本以及两者皆不是的负样本训练药品不可及识别模型;通过仅为医疗大事件的正样本、两者皆是的正样本以及两者皆不是的负样本训练医疗大事件识别模型。然后对这两个模型分别进行5折交叉验证,并采用准确率-召回率和F1-score进行模型效果评估,当准确率-召回率和F1-score均满足预设条件,即认为此时模型精度满足要求。其中,准确率包括所有的预测正确样本的占总样本的比重,以公式表示为召回率即正确预测为正类样本的占全部实际为正类样本的比例,以公式表示为/> 其中,TP表示正样本预测为正类,FP表示负样本预测为正类,FN表示正样本预测为负类,TN表示负样本预测为父类。
在一实施例中,如图4所示,该基于文本分类的舆情监测方法还包括如下步骤:
S401:确定目标舆情对应的模糊匹配词,并将模糊匹配词转化为第一词向量表示。
其中,第一词向量是指模糊匹配词对应的向量表示。由于预设检索词典中的预设关键词为预先根据经验设置或采集的多方经验进行综合设定,但仍有可能出现遗漏,故本实施例中对于不同的目标舆情对应的模糊匹配词增加对应的一个或多个相似词,以避免出现遗漏。
具体地,通过确定目标舆情对应的模糊匹配词,并将模糊匹配词转化为第一词向量表示,例如可通过腾讯AI Lab开源词库进行转换,此处不做限定。
S402:计算第一词向量与开源词向量库中每一第二词向量之间的特征相似度。
S403:基于特征相似度,以从开源词向量库中筛选出模糊匹配的同义词。
其中,开源词库可为腾讯AI Lab开源词库,该AI Lab开源词库中存储有不同词汇对应的词向量。第二词向量是指开源词库中所存储的不同词汇所对应的向量化表示。于本实施例中,该特征相似度可为余弦相似度。
具体地,通过计算第一词向量与开源词向量库中每一第二词向量之间的特征相似度,以将特征相似度按照从大到小排列,将排在前N(N为正整数)位的第二词向量所对应的词汇作为模糊匹配的同义词;或者将特征相似度大于预设相似度阈值的第二词向量所对应的词汇作为模糊匹配的同义词。
S404:基于模糊匹配词、同义词以及预先获取的完全匹配词,构建检索词典。
具体地,通过综合述模糊匹配词、所述同义词以及预先获取的完全匹配词,构建所述检索词典,以通过该检索词典检索新闻文本中不同目标舆情的关键信息进行抽取,从而将舆情文本识别模型中无法呈现的细节直观展示。
在一实施例中,对于药品不可及识别模型以及医疗大事件识别模型的模型识别流程相同,此处以药品不可及识别模型的识别流程为例进行说明。具体地,如图5所示,步骤S301中,即将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及,具体包括如下步骤:
S501:对新闻文本进行分字处理,并将得到的每一单字转换为字向量。
其中,可基于Lucene中文分词技术实现将新闻文本进行分字处理,以将新闻文本切分为多个单字。本实施例中,通过加载搜狗字向量以对新闻文本中的单字转换为字向量,以满足实时运算的需求且该基于字向量的模型加载效率更高。
S502:通过双向长短时记忆层提取每一字向量对应的正逆序文本特征。
具体地,通过双向长短时记忆层提取每一所述字向量对应的正逆序文本特征,即将每一所述字向量按照时间顺序正序输入至双向长短时记忆层中计算对应的隐层特征h,然后再将每一所述字向量按照时间顺序逆序输入至双向长短时记忆层中计算对应的隐层特征h’,然后将每一字向量对应的h以及h’拼接,以得到每一字向量对应的正逆序文本特征。
例如对于“我”“爱”“你”这三个字向量正序输入所提取得到的隐层特征h为{h1,h2,h3},逆序输入(“你”,“爱”,“我”)所提取得到的隐层特征h’为{h1’,h2’,h3’},然后通过contact函数将每一字向量对应的h以及h’拼接,以得到每一字向量对应的正逆序文本特征,即{(h1,h3’),(h2,h2’),(h3,h1’)}。其中,对于隐层特征的计算方式与传统双向长短时记忆层(Bi-lstm)相同,此处不再详述。
S503:通过注意力机制层基于每一字向量对应的正逆序文本特征,计算每一字向量对应的权重值,并基于权重值对每一字向量进行加权处理,得到注意力向量。
本实施例中的注意力机制层可通过自注意力机制(Self-Attention)实现,该注意力机制层通过计算每一字向量的权值,以得到字与字之间的依赖关系,使模型可更多的注意到对句子信息表达重要的字,提高模型识别的准确率。其中,针对注意力机制层的计算方式与传统自注意力机制(Self-Attention)的计算方式相同,此处不再详述。
S504:通过全连接层基于注意力向量对新闻文本进行分类,以判断新闻文本是否为药品不可及。
具体地,通过全连接层基于所述注意力向量对所述新闻文本进行分类,以判断所述新闻文本是否为药品不可及。其中,该全连接层可通过softmax分类器实现,以通过该全连接层基于注意力向量预测文本的概率分布,即新闻文本为药品不可及的概率,当该概率大于一预设阈值,即可确定该新闻文本为药品不可及。
在一实施例中,所述关键信息包括药品全称和/或药品别称;如图6所示,该基于文本分类的舆情监测方法还包括如下步骤:
S601:获取待分析的新闻文本,并将新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果。
具体地,步骤S601与步骤S201的执行步骤一致,为避免重复此处不再赘述。
S602:若识别结果为目标舆情,则调用目标舆情对应的检索词典对新闻文本进行关键词匹配,以提取新闻文本中与目标舆情对应的关键信息;其中,检索词典包括与目标舆情对应的完全匹配词、模糊匹配词以及与模糊匹配词对应的同义词。
具体地,步骤S602与步骤S202的执行步骤一致,为避免重复此处不再赘述。
S603:获取预先构建的药品知识字典树;其中,药品知识字典树以多叉树结构存储药品信息。
其中,所述药品信息包括药品类别、与所述药品类别对应的药品全称以及与所述药品全称对应的药品别称。具体地,该药品知识字典树以多叉树结构存储药品信息,以通过该多叉树结构描述药品信息中的药品类别、药品全称以及与药品别称之间的对应关系。其中,不同的药品类别可进一步细化分药品大类、药品小类。
示例性地,该该多叉树结构所描述的药品信息为:药品大类(例如中成药)、与药品大类对应的药品小类(例如抗肿瘤/癌药、心脑血管用药、消化系统用药等)、与药品小类对应的药品全称(例如长春碱、参蟾消解胶囊)以及与药品全称对应的药品别称(例如长春碱对应威保啶)。
S604:基于药品知识字典树,根据药品关键信息,输出对应的关联药品信息。
其中,药品关键信息包括药品全称和/或药品别称。具体地,通过关键信息中的药品全称和/或药品别称,可直接定位到其在药品知识字典树中对应的节点,再基于节点之间的映射关系(或对应关系),输出关联药品信息,包括药品类别(包括药品大类以及药品小类)、药品药品全称和/或药品别称。
进一步地,当关键信息中仅包括药品全称,则直接定位到其在药品知识字典树中对应的节点,再基于节点之间的映射关系(或对应关系),输出关联药品信息,包括药品类别(包括药品大类以及药品小类)以及药品别称。
当关键信息中仅包括药品别称,则直接定位到其在药品知识字典树中对应的节点,再基于节点之间的映射关系(或对应关系),输出关联药品信息,包括药品类别(包括药品大类以及药品小类)以及以及药品全称。
当关键信息中包括药品全称和药品别称,则直接定位到药品全称在药品知识字典树中对应的节点,再基于节点之间的映射关系(或对应关系),输出关联药品信息,包括药品类别(包括药品大类以及药品小类)以及药品别称;以及,直接定位药品别称在药品知识字典树中对应的节点,再基于节点之间的映射关系(或对应关系),输出关联药品信息,包括药品类别(包括药品大类以及药品小类)以及药品全称。
S605:将关键信息、分类结果以及药品类别转换为结构化输出。
具体地,将关键信息、所述分类结果、药品类别以及药品知识字典树中与关键信息对应的其他药品信息(例如药品全程或药品别称)转换为结构化输出。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于文本分类的舆情监测装置,该基于文本分类的舆情监测装置与上述实施例中基于文本分类的舆情监测方法一一对应。如图7所示,该基于文本分类的舆情监测装置包括新闻文本预识别模块10、文本关键信息抽取模块20以及关键信息结构化转换模块30。各功能模块详细说明如下:
新闻文本预识别模块10,用于获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的的舆情文本识别模型中进行识别,得到识别结果;
文本关键信息抽取模块20,用于若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;
关键信息结构化转换模块30,用于将所述关键信息以及所述分类结果转换为结构化输出。
具体地,新闻文本预识别模块包括模型识别单元和模型识别结果获取单元。
模型识别单元,用于将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及;以及,将所述所述新闻文本输入至医疗大事件识别模型中进行识别,以判断所述新闻文本是否为医疗大事件;
模型识别结果获取单元,用于若所述新闻文本为药品不可及和/或医疗大事件,则获取所述新闻文本属于目标舆情的识别结果。
具体地,该基于文本分类的舆情监测装置还包括词向量转换模块、特征相似度计算模块、同义词筛选模块和检索词典构建模块。
词向量转换模块,用于确定所述目标舆情对应的模糊匹配词,并将所述模糊匹配词转化为第一词向量表示;
特征相似度计算模块,用于计算所述第一词向量与开源词向量库中每一第二词向量之间的特征相似度;
同义词筛选模块,用于基于所述特征相似度,以从所述开源词向量库中筛选出所述模糊匹配的同义词;
检索词典构建模块,用于基于所述模糊匹配词、所述同义词以及预先获取的完全匹配词,构建所述检索词典。
具体地,所述药品不可及识别模型以及医疗大事件识别模型的模型结构相同,均包括依次连接的双向长短时记忆层、注意力机制层以及全连接层;其中,所述双向长短时记忆层用于提取新闻文本的正逆序文本特征;所述注意力机制层用于基于所述正逆序文本特征,计算注意力向量;所述全连接层用于根据所述注意力向量进行识别,以输出识别结果。
具体地,模型识别单元包括字向量转换子单元、正逆序特征提取子单元、注意力计算子单元以及分类子单元。
字向量转换子单元,用于对所述新闻文本进行分字处理,并将得到的每一单字转换为字向量;
正逆序特征提取子单元,用于通过所述双向长短时记忆层提取每一所述字向量对应的正逆序文本特征;
注意力计算子单元,用于通过所述注意力机制层基于每一所述字向量对应的正逆序文本特征,计算每一所述字向量对应的权重值,并基于所述权重值对每一所述字向量进行加权处理,得到所述注意力向量;
分类子单元,用于通过所述全连接层基于所述注意力向量对所述新闻文本进行分类,以判断所述新闻文本是否为药品不可及。
具体地,所述关键信息包括药品关键信息;该基于文本分类的舆情监测装置还包括
药品知识字典树获取模块,用于获取预先构建的药品知识字典树;其中,所述药品知识字典树以多叉树结构存储药品信息;
关联药品信息输出模块,用于基于所述药品知识字典树,根据所述药品关键信息,输出对应的关联药品信息;
关键信息结构化转换模块具体为:将所述关键信息、所述分类结果以及所述关联药品信息转换为结构化输出。
关于基于文本分类的舆情监测装置的具体限定可以参见上文中对于基于文本分类的舆情监测方法的限定,在此不再赘述。上述基于文本分类的舆情监测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于文本分类的舆情监测方法过程中生成或获取的数据,如舆情文本识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文本分类的舆情监测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的基于文本分类的舆情监测方法的步骤,例如图2所示的步骤S201-S203,或者图3至图6中所示的步骤。或者,处理器执行计算机程序时实现基于文本分类的舆情监测装置这一实施例中的各模块/单元的功能,例如图7所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于文本分类的舆情监测方法的步骤,例如图2所示的步骤S201-S203,或者图3至图6中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述基于文本分类的舆情监测装置这一实施例中的各模块/单元的功能,例如图7所示的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于文本分类的舆情监测方法,其特征在于,包括:
获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的舆情文本识别模型中进行识别,得到识别结果,所述舆情文本识别模型包括药品不可及识别模型以及医疗大事件识别模型;
所述药品不可及识别模型以及医疗大事件识别模型的模型结构相同,均包括依次连接的双向长短时记忆层、注意力机制层以及全连接层;其中,所述双向长短时记忆层用于提取新闻文本的正逆序文本特征;所述注意力机制层用于基于所述正逆序文本特征,计算注意力向量;所述全连接层用于根据所述注意力向量进行识别,以输出识别结果;
所述将所述新闻文本输入至预先训练好的舆情文本识别模型中进行识别,得到识别结果,包括:
将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及;以及,将所述新闻文本输入至医疗大事件识别模型中进行识别,以判断所述新闻文本是否为医疗大事件;所述将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及,包括:
对所述新闻文本进行分字处理,并将得到的每一单字转换为字向量;
通过所述双向长短时记忆层提取每一所述字向量对应的正逆序文本特征;
通过所述注意力机制层基于每一所述字向量对应的正逆序文本特征,计算每一所述字向量对应的权重值,并基于所述权重值对每一所述字向量进行加权处理,得到所述注意力向量;
通过所述全连接层基于所述注意力向量对所述新闻文本进行分类,以判断所述新闻文本是否为药品不可及;
若所述新闻文本为药品不可及和/或医疗大事件,则获取所述新闻文本属于目标舆情的识别结果;
若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;
将所述关键信息以及分类结果转换为结构化输出。
2.如权利要求1所述基于文本分类的舆情监测方法,其特征在于,在所述调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息的步骤之前,所述基于文本分类的舆情监测方法还包括:
确定所述目标舆情对应的模糊匹配词,并将所述模糊匹配词转化为第一词向量表示;
计算所述第一词向量与开源词向量库中每一第二词向量之间的特征相似度;
基于所述特征相似度,以从所述开源词向量库中筛选出所述模糊匹配的同义词;
基于所述模糊匹配词、所述同义词以及预先获取的完全匹配词,构建所述检索词典。
3.如权利要求1所述基于文本分类的舆情监测方法,其特征在于,所述关键信息包括药品关键信息;在所述将所述关键信息以及所述分类结果转换为结构化输出的步骤之前,所述基于文本分类的舆情监测方法还包括:
获取预先构建的药品知识字典树;其中,所述药品知识字典树以多叉树结构存储药品信息;
基于所述药品知识字典树,根据所述药品关键信息,输出对应的关联药品信息;
所述将所述关键信息以及所述分类结果转换为结构化输出,包括:
将所述关键信息、所述分类结果以及所述关联药品信息转换为结构化输出。
4.一种基于文本分类的舆情监测装置,其特征在于,包括:
新闻文本预识别模块,用于获取待分析的新闻文本,并将所述新闻文本输入至预先训练好的舆情文本识别模型中进行识别,得到识别结果,所述舆情文本识别模型包括药品不可及识别模型以及医疗大事件识别模型;
所述药品不可及识别模型以及医疗大事件识别模型的模型结构相同,均包括依次连接的双向长短时记忆层、注意力机制层以及全连接层;其中,所述双向长短时记忆层用于提取新闻文本的正逆序文本特征;所述注意力机制层用于基于所述正逆序文本特征,计算注意力向量;所述全连接层用于根据所述注意力向量进行识别,以输出识别结果;
所述将所述新闻文本输入至预先训练好的舆情文本识别模型中进行识别,得到识别结果,包括:
将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及;以及,将所述新闻文本输入至医疗大事件识别模型中进行识别,以判断所述新闻文本是否为医疗大事件;所述将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及,包括:
对所述新闻文本进行分字处理,并将得到的每一单字转换为字向量;
通过所述双向长短时记忆层提取每一所述字向量对应的正逆序文本特征;
通过所述注意力机制层基于每一所述字向量对应的正逆序文本特征,计算每一所述字向量对应的权重值,并基于所述权重值对每一所述字向量进行加权处理,得到所述注意力向量;
通过所述全连接层基于所述注意力向量对所述新闻文本进行分类,以判断所述新闻文本是否为药品不可及;
若所述新闻文本为药品不可及和/或医疗大事件,则获取所述新闻文本属于目标舆情的识别结果;
文本关键信息抽取模块,用于若所述识别结果为目标舆情,则调用所述目标舆情对应的检索词典对所述新闻文本进行关键词匹配,以提取所述新闻文本中与所述目标舆情对应的关键信息;其中,检索词典包括与所述目标舆情对应的完全匹配词、模糊匹配词以及与所述模糊匹配词对应的同义词;
关键信息结构化转换模块,用于将所述关键信息以及分类结果转换为结构化输出。
5.如权利要求4所述基于文本分类的舆情监测装置,其特征在于,所述新闻文本预识别模块包括:
模型识别单元,用于将所述新闻文本输入至所述药品不可及识别模型进行识别,以判断所述新闻文本是否为药品不可及;以及,将所述新闻文本输入至医疗大事件识别模型中进行识别,以判断所述新闻文本是否为医疗大事件;
模型识别结果获取单元,用于若所述新闻文本为药品不可及和/或医疗大事件,则获取所述新闻文本属于目标舆情的识别结果。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于文本分类的舆情监测方法的步骤。
7.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于文本分类的舆情监测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111050830.1A CN113742452B (zh) | 2021-09-08 | 2021-09-08 | 基于文本分类的舆情监测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111050830.1A CN113742452B (zh) | 2021-09-08 | 2021-09-08 | 基于文本分类的舆情监测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742452A CN113742452A (zh) | 2021-12-03 |
CN113742452B true CN113742452B (zh) | 2023-07-18 |
Family
ID=78737247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111050830.1A Active CN113742452B (zh) | 2021-09-08 | 2021-09-08 | 基于文本分类的舆情监测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742452B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824959A (zh) * | 2016-03-31 | 2016-08-03 | 首都信息发展股份有限公司 | 舆情监控方法及系统 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112347254A (zh) * | 2020-11-05 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 新闻文本的分类方法、装置、计算机设备和存储介质 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437871B2 (en) * | 2015-08-12 | 2019-10-08 | Hithink Royalflush Information Network Co., Ltd. | Method and system for sentiment analysis of information |
US10878190B2 (en) * | 2016-04-26 | 2020-12-29 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN107436875B (zh) * | 2016-05-25 | 2020-12-04 | 华为技术有限公司 | 文本分类方法及装置 |
-
2021
- 2021-09-08 CN CN202111050830.1A patent/CN113742452B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824959A (zh) * | 2016-03-31 | 2016-08-03 | 首都信息发展股份有限公司 | 舆情监控方法及系统 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112347254A (zh) * | 2020-11-05 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 新闻文本的分类方法、装置、计算机设备和存储介质 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
特定事件下网络舆情的情感分析与可视化方法;习海旭;蒋红芬;程志凡;何胜;;情报理论与实践(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113742452A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021068321A1 (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN108427707B (zh) | 人机问答方法、装置、计算机设备和存储介质 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
EP4022603A1 (en) | System and method to extract customized information in natural language text | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN109033427B (zh) | 股票的筛选方法及装置、计算机设备及可读存储介质 | |
CN111324713A (zh) | 对话自动回复方法、装置、存储介质和计算机设备 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
Ruposh et al. | A computational approach of recognizing emotion from Bengali texts | |
CN112256863A (zh) | 一种确定语料意图的方法、装置及电子设备 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN113742452B (zh) | 基于文本分类的舆情监测方法、装置、设备及介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |