CN112149409A - 医疗词云生成方法、装置、计算机设备及存储介质 - Google Patents
医疗词云生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112149409A CN112149409A CN202011012855.8A CN202011012855A CN112149409A CN 112149409 A CN112149409 A CN 112149409A CN 202011012855 A CN202011012855 A CN 202011012855A CN 112149409 A CN112149409 A CN 112149409A
- Authority
- CN
- China
- Prior art keywords
- medical
- news
- text
- word
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 117
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数字医疗技术领域,提供一种医疗词云生成方法、装置、计算机设备及存储介质,包括:获取多个新闻文本,并提取出每个新闻文本的新闻标题;通过训练好的医疗领域相关度识别模型基于新闻标题进行领域相关度识别,并根据领域相关度从多个新闻文本中选取出多个医疗新闻文本;将多个医疗新闻文本映射为多个目标医疗新闻文本,并从多个目标医疗新闻文本中提取出多个分词;计算多个分词的TextRank值,并根据TextRank值从所述多个分词中选取出多个医疗分词;当识别多个医疗分词之间能够构成多词关键词时,将多词关键词作为目标医疗分词;基于目标医疗分词构建医疗词云。本发明能够生成医疗领域的词云,且生成的医疗词云的准确度较高。
Description
技术领域
本发明涉及数字医疗技术领域,具体涉及一种医疗词云生成方法、装置、计算机设备及存储介质。
背景技术
观察词云可以快速获取到网络用户的关注点以及最新的网络动态信息。管理者可以根据词云的宏观信息能够对网络上未知的舆情起到时刻监控的作用。
发明人在实现本发明的过程中发现,目前医疗领域的词云大多都是基于通用的语料进行计算,通用的语料的来源五花八门,基于通用的分词技术不能够很好的对这些通用的语料进行切分。并且疾病的名称越长,通用的分词方法就越倾向于将该疾病名称划分开,导致医疗领域的词云大多是错误的,准确度较差。例如‘地图舌’是一个疾病的名称,如果使用通用的分词技术进行切分得到的是‘地图’和‘舌’,这显然是错误的。
因此,有必要提供一种针对医疗领域的词云的计算方法。
发明内容
鉴于以上内容,有必要提出一种医疗词云生成方法、装置、计算机设备及存储介质,能够生成医疗领域的词云,且生成的医疗词云的准确度较高。
本发明的第一方面提供一种医疗词云生成方法,所述方法包括:
获取多个新闻文本,并提取出每个新闻文本的新闻标题;
通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本;
将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词;
计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词;
当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词;
基于多个所述目标医疗分词构建医疗词云。
根据本发明的一个可选的实施例,所述计算所述多个分词的textrank值,并根据所述textrank值从所述多个分词中选取出多个医疗分词包括:
定义预设长度的滑动窗口;
根据所述滑动窗口在所述多个分词中的滑动过程计算任意两个分词之间的共现值;
选取大于预设共现阈值的共现值对应的多个目标分词;
以所述多个目标分词为顶点,以共现值为边构建分词结构图;
采用文本排名TextRank算法对所述分词结构图进行计算,得到每个目标分词的TextRank值;
对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个目标分词,作为多个医疗分词。
根据本发明的一个可选的实施例,所述通过训练好的医疗领域相关度识别模型基于所述新闻标题进行识别得到领域相关度,并根据所述领域相关度从所述多个新闻文本中选取出多个医疗新闻文本包括:
输入每个新闻标题至预训练模型BERT中进行编码得到多个字向量;
计算所述多个字向量的均值得到均值向量,作为所述新闻标题的语义向量;
输入所述语义向量至所述训练好的医疗领域相关度识别模型中进行识别得到领域相关度;
获取大于预设阈值的领域相关度对应的多个目标新闻标题;
从所述多个新闻文本中选取出所述多个目标新闻标题对应的多个新闻文本作为多个医疗新闻文本。
根据本发明的一个可选的实施例,所述医疗领域相关度识别模型的训练过程包括:
获取多个新闻标题文本及多个非新闻标题文本;
输入每个新闻标题文本至所述预训练模型BERT中进行编码得到多个第一文本字向量,及输入每个非新闻标题文本至所述预训练模型BERT中进行编码得到多个第二文本字向量;
计算所述多个第一文本字向量的均值得到第一文本均值向量,及计算所述多个第二文本字向量的均值得到第二文本均值向量;
为每个所述第一文本均值向量生成第一领域相关度,及为每个所述第二文本均值向量生成第二领域相关度;
根据所述第一文本均值向量及对应的第一领域相关度生成第一数据对,根据所述第二文本均值向量及对应的第二领域相关度生成第二数据对;
基于多个所述第一数据对及多个所述第二数据对作为数据集,训练DNN网络得到医疗领域相关度识别模型。
根据本发明的一个可选的实施例,所述将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词包括:
将每个医疗新闻文本切分为多个文本语句,并将每个文本语句切分为多个分词;
识别每个分词的词性,并将多个预设词性的分词进行保留;
针对每一个医疗新闻文本,将保留后的多个分词映射为目标医疗新闻文本;
采用命名实体标注模型对所述目标医疗新闻文本进行命名实体标注;
提取所述命名实体作为多个分词。
根据本发明的一个可选的实施例,所述获取多个新闻文本包括:
定义多个关键词;
根据预设的多个检索数据库及所述多个关键词生成多个检索式;
使用所述检索式在对应的检索数据库中进行检索,得到多个新闻文本。
根据本发明的一个可选的实施例,在所述基于多个所述目标医疗分词构建医疗词云之后,所述方法还包括:
获取属于同一个新闻文本中的多个目标医疗分词;
在属于同一个新闻文本中的多个目标医疗分词及所述新闻文本之间构建索引;
当接收到用户的检索请求时,根据所述检索请求检索出新闻文本;
在检索出的新闻文本中对索引的多个分词进行云可视化显示。
本发明的第二方面提供一种医疗词云生成装置,所述装置包括:
文本获取模块,用于获取多个新闻文本,并提取出每个新闻文本的新闻标题;
领域识别模块,用于通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本;
分词提取模块,用于将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词;
分词选取模块,用于计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词;
多词识别模块,用于当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词;
词云构建模块,用于基于多个所述目标医疗分词构建医疗词云。
本发明的第三方面提供一种计算机设备,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的医疗词云生成方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的医疗词云生成方法。
综上所述,本发明所述的医疗词云生成方法、装置、计算机设备及存储介质,可应用于智慧医疗中,促进智慧城市的发展。本发明通过获取多个新闻文本并提取出每个新闻文本的新闻标题,通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本,选取出的多个医疗新闻文本作为医疗词云的数据来源,丰富了医疗词云的数量;将所述多个医疗新闻文本映射为多个目标医疗新闻文本,能够去掉非医疗分词,从而快速且精准的从所述多个目标医疗新闻文本中提取出多个分词;最后计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词,并在识别出所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词,能够避免现有的分词方法对医疗分词的错误切分,得到的多个目标医疗分词更加符合医疗领域的语料表达,因而基于多个所述目标医疗分词构建医疗词云的准确度较高。
附图说明
图1是本发明实施例一提供的医疗词云生成方法的流程图。
图2是本发明实施例二提供的医疗词云生成装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
医疗词云生成方法应用于计算机设备中,相应地,医疗词云生成装置运行于计算机设备中。
图1是本发明实施例一提供的医疗词云生成方法的流程图。所述医疗词云生成方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取多个新闻文本,并提取出每个新闻文本的新闻标题。
对于医疗领域的词云计算需要爬取医疗领域的文本进行计算,然而各个搜索数据库中并没有单独的针对医疗领域新闻文本的收录,因此需要计算机设备定义关键词进行搜索爬取,再从搜索到的新闻文本中过滤出医疗领域相关的新闻文本。
在一个可选的实施例中,所述获取多个新闻文本包括:
定义多个关键词;
根据预设的多个检索数据库及所述多个关键词生成多个检索式;
使用所述检索式在对应的检索数据库中进行检索,得到多个新闻文本。
示例性的,所述搜索关键词可以为看病、买药等。
由于在数据库检索的过程中,每个数据库都可能存在不一样的检索规则,在生成检索式之前,首先获取到所需要检索的数据库的检索规则,然后根据数据库中的检索规则利用一个或者多个定义好的关键词生成检索数据库对应的检索式,然后利用检索数据库对应的检索式在检索数据库中进行检索,获取与关键词相关的新闻文本。
另外,由于各个搜索数据库的搜索算法的准确率和召回率标准不一,导致有很多虽然与关键词相关,但是新闻内容并不是医疗领域的新闻文本被搜索出来,因此需要对搜索出来的新闻文本进行过滤。将与搜索的关键词相关但是新闻内容相关性低的非医疗的新闻文本进行过滤掉。
S12,通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本。
计算机设备事先训练医疗领域相关度识别模型,用以进行医疗领域相关度的识别,从而确定一份新闻文本是否属于医疗领域的文本。
领域相关度越大,表明对应的新闻标题越属于医疗领域,领域相关度越小,表明对应的新闻标题越不属于医疗领域。由于新闻文本的特殊性,新闻标题一般浓缩了整分新闻文本的概要,因此可通过新闻标题对新闻文本进行判断,如果新闻标题属于医疗领域,则新闻文本就属于医疗领域,如果新闻标题不属于医疗领域,则新闻文本就不属于医疗领域。
在一个可选的实施例中,所述通过训练好的医疗领域相关度识别模型基于所述新闻标题进行识别得到领域相关度,并根据所述领域相关度从所述多个新闻文本中选取出多个医疗新闻文本包括:
输入每个新闻标题至预训练模型BERT中进行编码得到多个字向量;
计算所述多个字向量的均值得到均值向量,作为所述新闻标题的语义向量;
输入所述语义向量至所述训练好的医疗领域相关度识别模型中进行识别得到领域相关度;
获取大于预设阈值的领域相关度对应的多个目标新闻标题;
从所述多个新闻文本中选取出所述多个目标新闻标题对应的多个新闻文本作为多个医疗新闻文本。
BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面词的信息,从而获取上下文的语义。
在一个可选的实施例中,可以从Google提供的多种预训练好的BERT模型中选取BERT(base)作为文本匹配的预训练模型。
新闻标题通过BERT模型之后,新闻标题中的每个字被‘编码’成一个768维的字向量,字向量的每个位置上的数字表示该新闻标题的语义信息,将字向量进行平均得到该新闻标题总体的语义信息。最后,将所述语义向量输入至所述训练好的医疗领域相关度识别模型中进行识别,即可通过所述医疗领域相关度识别模型输出领域相关度,根据所述领域相关度选取出多个医疗新闻文本。
在一个可选的实施例中,所述医疗领域相关度识别模型的训练过程包括:
获取多个新闻标题文本及多个非新闻标题文本;
输入每个新闻标题文本至所述预训练模型BERT中进行编码得到多个第一文本字向量,及输入每个非新闻标题文本至所述预训练模型BERT中进行编码得到多个第二文本字向量;
计算所述多个第一文本字向量的均值得到第一文本均值向量,及计算所述多个第二文本字向量的均值得到第二文本均值向量;
为每个所述第一文本均值向量生成第一领域相关度,及为每个所述第二文本均值向量生成第二领域相关度;
根据所述第一文本均值向量及对应的第一领域相关度生成第一数据对,根据所述第二文本均值向量及对应的第二领域相关度生成第二数据对;
基于多个所述第一数据对及多个所述第二数据对作为数据集,训练DNN网络得到医疗领域相关度识别模型。
由于新闻标题文本的领域相关度的标注需要考虑人力成本,因此需要使用可以兼容小样本的神经网络模型,同时也不能够选取参数较多的神经网络,否则会导致欠拟合问题,影响网络的效果。考虑到Bert神经网络结构可以很好的提取文本的语义信息,因此在Bert模型后可以接相对浅层的DNN神经网络进行医疗领域相关度识别模型的训练及医疗领域相关度的识别。
S13,将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词。
即使一份医疗新闻文本属于医疗领域,但所述医疗新闻文本中依然存在多个与医疗不相关的词语,因此通过将所述医疗新闻文本映射为目标医疗新闻文本,去掉非医疗分词,便于后续使用命名实体识别模型对目标医疗新闻文本进行命名实体标注时,能够加快命名实体的标注过程,提高命名实体的标注效率,从而快速的提取出多个分词。
在一个可选的实施例中,所述将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词包括:
将每个医疗新闻文本切分为多个文本语句,并将每个文本语句切分为多个分词;
识别每个分词的词性,并将多个预设词性的分词进行保留;
针对每一个医疗新闻文本,将保留后的多个分词映射为目标医疗新闻文本;
采用命名实体标注模型对所述目标医疗新闻文本进行命名实体标注;
提取所述命名实体作为多个分词。
计算机设备可以采用分词工具将每个文本语句切分为多个分词。其中,所述分词工具可以为结巴分词工具。
其中,所述多个预设词性包括名词、动词、形容词,由于无用词(停用词、副词等等)会影响词云的生成效率,因此将停用词、副词等从多个分词中进行去除之后,再按照保留下来的分词在原有医疗新闻文本中的顺序进行串接起来,并将每两个分词之间以预设的标识符进行隔开,得到目标医疗新闻文本。
计算机设备可以预先获取多个电子病例文本,并结合医疗知识图谱对所述多个电子病例文本进行命名实体标注,基于命名实体标注后的多个电子病例训练BiLSTM-CRF得到命名实体标注模型。其中,所述命名实体为医疗领域专用词(疾病、部位、症状)。
关于训练BiLSTM-CRF得到命名实体标注模型的过程为现有技术,本发明在此不再详细阐述。
S14,计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词。
计算机设备计算每个医疗分词的TextRank值,并将所有计算得到的TextRank从大到小排序,并将排序在前的多个(例如,前2000个)TextRank值对应的多个分词选取出来,作为医疗词云的数据来源。
在一个可选的实施例中,所述计算所述多个分词的textrank值,并根据所述textrank值从所述多个分词中选取出多个医疗分词包括:
定义预设长度的滑动窗口;
根据所述滑动窗口在所述多个分词中的滑动过程计算任意两个分词之间的共现值;
选取大于预设共现阈值的共现值对应的多个目标分词;
以所述多个目标分词为顶点,以共现值为边构建分词结构图;
采用文本排名TextRank算法对所述分词结构图进行计算,得到每个目标分词的TextRank值;
对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个目标分词,作为多个医疗分词。
构建分词结构图G=(V,E),其中V为顶点集,E为共现值,两个顶点在长度为K的滑动窗口中共现过,则记为这两个顶点之间存在共现关系,K可以取5。存在一次共现关系,则共现值记为1,存在N次共现关系,则共现值记为N。共现值越大,表明对应的两个分词越属于医疗领域的常用词;共现值越小,表明对应的两个分词越不属于医疗领域的常用词。因此,选取出大于预设共现阈值的共现值对应的多个目标分词,并计算多个目标分词的TextRank值。TextRank值越大,对应的目标分词,作为医疗分词的可能性越大,TextRank值越小,对应的目标分词,作为医疗分词的可能性越小。
文本排名TextRank算法是一种用于文本的基于图的排序算法,通过TextRank算法可以获得文本图结构中的文本语句的排名结果。
S15,当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词。
具体实施时,针对任意一个目标医疗文本,识别所述任意一个目标医疗文本中的所有医疗分词的位置,判断任意两个医疗分词的位置是否相邻。当任意两个医疗分词的位置相邻,则识别出这任意两个医疗分词之间能够构成多词关键词。当任意两个医疗分词的位置不相邻,则识别出这任意两个医疗分词之间不能够构成多词关键词。
示例性的,将所述多个医疗分词在对应的目标医疗文本中进行标记,若任意两个医疗分词形成相邻词组,则表明这两个医疗分词能够构成多词关键词。例如,目标医疗文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于医疗分词,则由于“Matlab”和“code”在目标医疗文本中的位置相邻,则“Matlab”和“code”能够构成多词关键词“Matlab code”,从而将多词关键词“Matlab code”作为目标医疗分词。
S16,基于多个所述目标医疗分词构建医疗词云。
计算机设备中初始化有医疗词云数据库,将所述多个目标医疗分词写入所述医疗词云数据库中,同时还可以将所述多个目标医疗分词的TextRank值写入所述医疗词云数据库中。
医疗知识图谱也是构建医疗词云的最直接的数据来源,医疗知识图谱中涵盖有大量的包含疾病、诊断、部位等等医疗分词,将多个目标医疗分词与医疗知识图谱中的多个分词进行去重处理,再构建医疗词云数据库,进一步扩充医疗词云的范围。
在一个可选的实施例中,在所述基于多个所述目标医疗分词构建医疗词云之后,所述方法还包括:
获取属于同一个新闻文本中的多个目标医疗分词;
在属于同一个新闻文本中的多个目标医疗分词及所述新闻文本之间构建索引;
当接收到用户的检索请求时,根据所述检索请求检索出新闻文本;
在检索出的新闻文本中对索引的多个分词进行云可视化显示。
若需要知道多个目标医疗分词在哪些新闻文本中出现过,则可以通过建立目标医疗分词与新闻标题和新闻文本之间的映射,当需要了解某个目标医疗分词的具体信息时可以只需点击该目标医疗分词,便可以得到该目标医疗分词的更多信息。
用户需要检索医疗领域相关的新闻文本时,输入检索文本以触发检索请求,根据检索文本进行新闻文本的检索。将检索后的新闻文本显示在显示屏幕上,并在所显示的新闻文本中可视化显示与所述新闻文本索引的多个分词。
计算机设备还可以在侦测到用户点击或者触摸可视化显示的一个医疗分词时,跳转到包含所述医疗分词最多的新闻文本中,提高用户的使用体验感。
本发明所述的医疗词云生成方法,可应用于智慧医疗中,促进智慧城市的发展。本发明通过获取多个新闻文本并提取出每个新闻文本的新闻标题,通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本,选取出的多个医疗新闻文本作为医疗词云的数据来源,丰富了医疗词云的数量;将所述多个医疗新闻文本映射为多个目标医疗新闻文本,能够去掉非医疗分词,从而快速且精准的从所述多个目标医疗新闻文本中提取出多个分词;最后计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词,并在识别出所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词,能够避免现有的分词方法对医疗分词的错误切分,得到的多个目标医疗分词更加符合医疗领域的语料表达,因而基于多个所述目标医疗分词构建医疗词云的准确度较高。
需要强调的是,为进一步保证上述医疗词云的私密性和安全性,上述医疗词云可存储于区块链的节点中。
图2是本发明实施例二提供的医疗词云生成装置的结构图。
在一些实施例中,所述医疗词云生成装置20可以包括多个由计算机程序段所组成的功能模块。所述医疗词云生成装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)医疗词云生成的功能。
本实施例中,所述医疗词云生成装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:文本获取模块201、领域识别模块202、模型训练模块203、分词提取模块204、分词选取模块205、多词识别模块206、词云构建模块207及文本检索模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述文本获取模块201,用于获取多个新闻文本,并提取出每个新闻文本的新闻标题。
对于医疗领域的词云计算需要爬取医疗领域的文本进行计算,然而各个搜索数据库中并没有单独的针对医疗领域新闻文本的收录,因此需要计算机设备定义关键词进行搜索爬取,再从搜索到的新闻文本中过滤出医疗领域相关的新闻文本。
在一个可选的实施例中,所述文本获取模块201获取多个新闻文本包括:
定义多个关键词;
根据预设的多个检索数据库及所述多个关键词生成多个检索式;
使用所述检索式在对应的检索数据库中进行检索,得到多个新闻文本。
示例性的,所述搜索关键词可以为看病、买药等。
由于在数据库检索的过程中,每个数据库都可能存在不一样的检索规则,在生成检索式之前,首先获取到所需要检索的数据库的检索规则,然后根据数据库中的检索规则利用一个或者多个定义好的关键词生成检索数据库对应的检索式,然后利用检索数据库对应的检索式在检索数据库中进行检索,获取与关键词相关的新闻文本。
另外,由于各个搜索数据库的搜索算法的准确率和召回率标准不一,导致有很多虽然与关键词相关,但是新闻内容并不是医疗领域的新闻文本被搜索出来,因此需要对搜索出来的新闻文本进行过滤。将与搜索的关键词相关但是新闻内容相关性低的非医疗的新闻文本进行过滤掉。
所述领域识别模块202,用于通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本。
计算机设备事先训练医疗领域相关度识别模型,用以进行医疗领域相关度的识别,从而确定一份新闻文本是否属于医疗领域的文本。
领域相关度越大,表明对应的新闻标题越属于医疗领域,领域相关度越小,表明对应的新闻标题越不属于医疗领域。由于新闻文本的特殊性,新闻标题一般浓缩了整分新闻文本的概要,因此可通过新闻标题对新闻文本进行判断,如果新闻标题属于医疗领域,则新闻文本就属于医疗领域,如果新闻标题不属于医疗领域,则新闻文本就不属于医疗领域。
在一个可选的实施例中,所述领域识别模块202通过训练好的医疗领域相关度识别模型基于所述新闻标题进行识别得到领域相关度,并根据所述领域相关度从所述多个新闻文本中选取出多个医疗新闻文本包括:
输入每个新闻标题至预训练模型BERT中进行编码得到多个字向量;
计算所述多个字向量的均值得到均值向量,作为所述新闻标题的语义向量;
输入所述语义向量至所述训练好的医疗领域相关度识别模型中进行识别得到领域相关度;
获取大于预设阈值的领域相关度对应的多个目标新闻标题;
从所述多个新闻文本中选取出所述多个目标新闻标题对应的多个新闻文本作为多个医疗新闻文本。
BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面词的信息,从而获取上下文的语义。
在一个可选的实施例中,可以从Google提供的多种预训练好的BERT模型中选取BERT(base)作为文本匹配的预训练模型。
新闻标题通过BERT模型之后,新闻标题中的每个字被‘编码’成一个768维的字向量,字向量的每个位置上的数字表示该新闻标题的语义信息,将字向量进行平均得到该新闻标题总体的语义信息。最后,将所述语义向量输入至所述训练好的医疗领域相关度识别模型中进行识别,即可通过所述医疗领域相关度识别模型输出领域相关度,根据所述领域相关度选取出多个医疗新闻文本。
所述模型训练模块203,用于训练医疗领域相关度识别模型。
在一个可选的实施例中,所述模型训练模块203训练医疗领域相关度识别模型包括:
获取多个新闻标题文本及多个非新闻标题文本;
输入每个新闻标题文本至所述预训练模型BERT中进行编码得到多个第一文本字向量,及输入每个非新闻标题文本至所述预训练模型BERT中进行编码得到多个第二文本字向量;
计算所述多个第一文本字向量的均值得到第一文本均值向量,及计算所述多个第二文本字向量的均值得到第二文本均值向量;
为每个所述第一文本均值向量生成第一领域相关度,及为每个所述第二文本均值向量生成第二领域相关度;
根据所述第一文本均值向量及对应的第一领域相关度生成第一数据对,根据所述第二文本均值向量及对应的第二领域相关度生成第二数据对;
基于多个所述第一数据对及多个所述第二数据对作为数据集,训练DNN网络得到医疗领域相关度识别模型。
由于新闻标题文本的领域相关度的标注需要考虑人力成本,因此需要使用可以兼容小样本的神经网络模型,同时也不能够选取参数较多的神经网络,否则会导致欠拟合问题,影响网络的效果。考虑到Bert神经网络结构可以很好的提取文本的语义信息,因此在Bert模型后可以接相对浅层的DNN神经网络进行医疗领域相关度识别模型的训练及医疗领域相关度的识别。本文采用的神经网络结构和网络参数如下:
所述分词提取模块204,用于将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词。
即使一份医疗新闻文本属于医疗领域,但所述医疗新闻文本中依然存在多个与医疗不相关的词语,因此通过将所述医疗新闻文本映射为目标医疗新闻文本,去掉非医疗分词,便于后续使用命名实体识别模型对目标医疗新闻文本进行命名实体标注时,能够加快命名实体的标注过程,提高命名实体的标注效率,从而快速的提取出多个分词。
在一个可选的实施例中,所述分词提取模块204将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词包括:
将每个医疗新闻文本切分为多个文本语句,并将每个文本语句切分为多个分词;
识别每个分词的词性,并将多个预设词性的分词进行保留;
针对每一个医疗新闻文本,将保留后的多个分词映射为目标医疗新闻文本;
采用命名实体标注模型对所述目标医疗新闻文本进行命名实体标注;
提取所述命名实体作为多个分词。
计算机设备可以采用分词工具将每个文本语句切分为多个分词。其中,所述分词工具可以为结巴分词工具。
其中,所述多个预设词性包括名词、动词、形容词,由于无用词(停用词、副词等等)会影响词云的生成效率,因此将停用词、副词等从多个分词中进行去除之后,再按照保留下来的分词在原有医疗新闻文本中的顺序进行串接起来,并将每两个分词之间以预设的标识符进行隔开,得到目标医疗新闻文本。
计算机设备可以预先获取多个电子病例文本,并结合医疗知识图谱对所述多个电子病例文本进行命名实体标注,基于命名实体标注后的多个电子病例训练BiLSTM-CRF得到命名实体标注模型。其中,所述命名实体为医疗领域专用词(疾病、部位、症状)。
关于训练BiLSTM-CRF得到命名实体标注模型的过程为现有技术,本发明在此不再详细阐述。
所述分词选取模块205,用于计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词。
计算机设备计算每个医疗分词的TextRank值,并将所有计算得到的TextRank从大到小排序,并将排序在前的多个(例如,前2000个)TextRank值对应的多个分词选取出来,作为医疗词云的数据来源。
在一个可选的实施例中,所述分词选取模块205计算所述多个分词的textrank值,并根据所述textrank值从所述多个分词中选取出多个医疗分词包括:
定义预设长度的滑动窗口;
根据所述滑动窗口在所述多个分词中的滑动过程计算任意两个分词之间的共现值;
选取大于预设共现阈值的共现值对应的多个目标分词;
以所述多个目标分词为顶点,以共现值为边构建分词结构图;
采用文本排名TextRank算法对所述分词结构图进行计算,得到每个目标分词的TextRank值;
对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个目标分词,作为多个医疗分词。
构建分词结构图G=(V,E),其中V为顶点集,E为共现值,两个顶点在长度为K的滑动窗口中共现过,则记为这两个顶点之间存在共现关系,K可以取5。存在一次共现关系,则共现值记为1,存在N次共现关系,则共现值记为N。共现值越大,表明对应的两个分词越属于医疗领域的常用词;共现值越小,表明对应的两个分词越不属于医疗领域的常用词。因此,选取出大于预设共现阈值的共现值对应的多个目标分词,并计算多个目标分词的TextRank值。TextRank值越大,对应的目标分词,作为医疗分词的可能性越大,TextRank值越小,对应的目标分词,作为医疗分词的可能性越小。
文本排名TextRank算法是一种用于文本的基于图的排序算法,通过TextRank算法可以获得文本图结构中的文本语句的排名结果。
所述多词识别模块206,用于当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词。
具体实施时,针对任意一个目标医疗文本,识别所述任意一个目标医疗文本中的所有医疗分词的位置,判断任意两个医疗分词的位置是否相邻。当任意两个医疗分词的位置相邻,则识别出这任意两个医疗分词之间能够构成多词关键词。当任意两个医疗分词的位置不相邻,则识别出这任意两个医疗分词之间不能够构成多词关键词。
示例性的,将所述多个医疗分词在对应的目标医疗文本中进行标记,若任意两个医疗分词形成相邻词组,则表明这两个医疗分词能够构成多词关键词。例如,目标医疗文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于医疗分词,则由于“Matlab”和“code”在目标医疗文本中的位置相邻,则“Matlab”和“code”能够构成多词关键词“Matlab code”,从而将多词关键词“Matlab code”作为目标医疗分词。
所述词云构建模块207,用于基于多个所述目标医疗分词构建医疗词云。
计算机设备中初始化有医疗词云数据库,将所述多个目标医疗分词写入所述医疗词云数据库中,同时还可以将所述多个目标医疗分词的TextRank值写入所述医疗词云数据库中。
医疗知识图谱也是构建医疗词云的最直接的数据来源,医疗知识图谱中涵盖有大量的包含疾病、诊断、部位等等医疗分词,将多个目标医疗分词与医疗知识图谱中的多个分词进行去重处理,再构建医疗词云数据库,进一步扩充医疗词云的范围。
所述文本检索模块208,用于获取属于同一个新闻文本中的多个目标医疗分词;在属于同一个新闻文本中的多个目标医疗分词及所述新闻文本之间构建索引;当接收到用户的检索请求时,根据所述检索请求检索出新闻文本;在检索出的新闻文本中对索引的多个分词进行云可视化显示。
若需要知道多个目标医疗分词在哪些新闻文本中出现过,则可以通过建立目标医疗分词与新闻标题和新闻文本之间的映射,当需要了解某个目标医疗分词的具体信息时可以只需点击该目标医疗分词,便可以得到该目标医疗分词的更多信息。
用户需要检索医疗领域相关的新闻文本时,输入检索文本以触发检索请求,根据检索文本进行新闻文本的检索。将检索后的新闻文本显示在显示屏幕上,并在所显示的新闻文本中可视化显示与所述新闻文本索引的多个分词。
计算机设备还可以在侦测到用户点击或者触摸可视化显示的一个医疗分词时,跳转到包含所述医疗分词最多的新闻文本中,提高用户的使用体验感。
本发明所述的医疗词云生成装置,可应用于智慧医疗中,促进智慧城市的发展。本发明通过获取多个新闻文本并提取出每个新闻文本的新闻标题,通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本,选取出的多个医疗新闻文本作为医疗词云的数据来源,丰富了医疗词云的数量;将所述多个医疗新闻文本映射为多个目标医疗新闻文本,能够去掉非医疗分词,从而快速且精准的从所述多个目标医疗新闻文本中提取出多个分词;最后计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词,并在识别出所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词,能够避免现有的分词方法对医疗分词的错误切分,得到的多个目标医疗分词更加符合医疗领域的语料表达,因而基于多个所述目标医疗分词构建医疗词云的准确度较高。
需要强调的是,为进一步保证上述医疗词云的私密性和安全性,上述医疗词云可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的医疗词云生成方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的医疗词云生成方法的全部或者部分步骤;或者实现医疗词云生成装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种医疗词云生成方法,其特征在于,所述方法包括:
获取多个新闻文本,并提取出每个新闻文本的新闻标题;
通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本;
将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词;
计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词;
当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词;
基于多个所述目标医疗分词构建医疗词云。
2.如权利要求1所述的医疗词云生成方法,其特征在于,所述计算所述多个分词的textrank值,并根据所述textrank值从所述多个分词中选取出多个医疗分词包括:
定义预设长度的滑动窗口;
根据所述滑动窗口在所述多个分词中的滑动过程计算任意两个分词之间的共现值;
选取大于预设共现阈值的共现值对应的多个目标分词;
以所述多个目标分词为顶点,以共现值为边构建分词结构图;
采用文本排名TextRank算法对所述分词结构图进行计算,得到每个目标分词的TextRank值;
对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个目标分词,作为多个医疗分词。
3.如权利要求1所述的医疗词云生成方法,其特征在于,所述通过训练好的医疗领域相关度识别模型基于所述新闻标题进行识别得到领域相关度,并根据所述领域相关度从所述多个新闻文本中选取出多个医疗新闻文本包括:
输入每个新闻标题至预训练模型BERT中进行编码得到多个字向量;
计算所述多个字向量的均值得到均值向量,作为所述新闻标题的语义向量;
输入所述语义向量至所述训练好的医疗领域相关度识别模型中进行识别得到领域相关度;
获取大于预设阈值的领域相关度对应的多个目标新闻标题;
从所述多个新闻文本中选取出所述多个目标新闻标题对应的多个新闻文本作为多个医疗新闻文本。
4.如权利要求1所述的医疗词云生成方法,其特征在于,所述医疗领域相关度识别模型的训练过程包括:
获取多个新闻标题文本及多个非新闻标题文本;
输入每个新闻标题文本至所述预训练模型BERT中进行编码得到多个第一文本字向量,及输入每个非新闻标题文本至所述预训练模型BERT中进行编码得到多个第二文本字向量;
计算所述多个第一文本字向量的均值得到第一文本均值向量,及计算所述多个第二文本字向量的均值得到第二文本均值向量;
为每个所述第一文本均值向量生成第一领域相关度,及为每个所述第二文本均值向量生成第二领域相关度;
根据所述第一文本均值向量及对应的第一领域相关度生成第一数据对,根据所述第二文本均值向量及对应的第二领域相关度生成第二数据对;
基于多个所述第一数据对及多个所述第二数据对作为数据集,训练DNN网络得到医疗领域相关度识别模型。
5.如权利要求1所述的医疗词云生成方法,其特征在于,所述将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词包括:
将每个医疗新闻文本切分为多个文本语句,并将每个文本语句切分为多个分词;
识别每个分词的词性,并将多个预设词性的分词进行保留;
针对每一个医疗新闻文本,将保留后的多个分词映射为目标医疗新闻文本;
采用命名实体标注模型对所述目标医疗新闻文本进行命名实体标注;
提取所述命名实体作为多个分词。
6.如权利要求1至5中任意一项所述的医疗词云生成方法,其特征在于,所述获取多个新闻文本包括:
定义多个关键词;
根据预设的多个检索数据库及所述多个关键词生成多个检索式;
使用所述检索式在对应的检索数据库中进行检索,得到多个新闻文本。
7.如权利要求1至5中任意一项所述的医疗词云生成方法,其特征在于,在所述基于多个所述目标医疗分词构建医疗词云之后,所述方法还包括:
获取属于同一个新闻文本中的多个目标医疗分词;
在属于同一个新闻文本中的多个目标医疗分词及所述新闻文本之间构建索引;
当接收到用户的检索请求时,根据所述检索请求检索出新闻文本;
在检索出的新闻文本中对索引的多个分词进行云可视化显示。
8.一种医疗词云生成装置,其特征在于,所述装置包括:
文本获取模块,用于获取多个新闻文本,并提取出每个新闻文本的新闻标题;
领域识别模块,用于通过训练好的医疗领域相关度识别模型基于所述新闻标题进行领域相关度识别,并根据识别得到的领域相关度从所述多个新闻文本中选取出多个医疗新闻文本;
分词提取模块,用于将所述多个医疗新闻文本映射为多个目标医疗新闻文本,并从所述多个目标医疗新闻文本中提取出多个分词;
分词选取模块,用于计算所述多个分词的TextRank值,并根据所述TextRank值从所述多个分词中选取出多个医疗分词;
多词识别模块,用于当根据所述医疗分词在所述目标医疗新闻文本中的位置识别所述多个医疗分词之间能够构成多词关键词时,将所述多词关键词作为目标医疗分词;
词云构建模块,用于基于多个所述目标医疗分词构建医疗词云。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任意一项所述的医疗词云生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的医疗词云生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012855.8A CN112149409B (zh) | 2020-09-23 | 2020-09-23 | 医疗词云生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012855.8A CN112149409B (zh) | 2020-09-23 | 2020-09-23 | 医疗词云生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149409A true CN112149409A (zh) | 2020-12-29 |
CN112149409B CN112149409B (zh) | 2024-04-02 |
Family
ID=73896367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012855.8A Active CN112149409B (zh) | 2020-09-23 | 2020-09-23 | 医疗词云生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149409B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN112990465A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学知识萃取方法、装置、设备及存储介质 |
CN112988999A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学问答对的构建方法、装置、设备及存储介质 |
CN113657547A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于自然语言处理模型的舆情监测方法及其相关设备 |
CN113722508A (zh) * | 2021-09-02 | 2021-11-30 | 中国农业银行股份有限公司 | 词云展示方法及装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN111522919A (zh) * | 2020-05-21 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 一种文本处理方法、电子设备和存储介质 |
CN111581337A (zh) * | 2020-03-19 | 2020-08-25 | 平安科技(深圳)有限公司 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-23 CN CN202011012855.8A patent/CN112149409B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN111581337A (zh) * | 2020-03-19 | 2020-08-25 | 平安科技(深圳)有限公司 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
CN111522919A (zh) * | 2020-05-21 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 一种文本处理方法、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
WUJUN XI 等: "基于网络爬虫及中文分词技术的四风新闻报道研究", 《2018 7TH INTERNATIONAL CONFERENCE ON APPLIED SOCIAL SCIENCE》, pages 453 - 458 * |
YING-CHUN LIN等: "Generation of Conceptual-Level Text Cloud with Graph Diffusion", 《THE 2016 CONFERENCE ON COMPUTATIONAL LINGUISTICS AND SPEECH PROCESSING》, pages 402 - 411 * |
宋文欣: "面向医疗领域的实体对齐研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, pages 138 - 5117 * |
祝永志 等: "基于 Python 语言的中文分词技术的研究", 《通信技术》, vol. 52, no. 7, pages 1612 - 1619 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN112883734B (zh) * | 2021-01-15 | 2023-01-10 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN112990465A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学知识萃取方法、装置、设备及存储介质 |
CN112988999A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学问答对的构建方法、装置、设备及存储介质 |
CN112988999B (zh) * | 2021-03-17 | 2024-07-12 | 平安科技(深圳)有限公司 | 佛学问答对的构建方法、装置、设备及存储介质 |
CN113657547A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于自然语言处理模型的舆情监测方法及其相关设备 |
CN113657547B (zh) * | 2021-08-31 | 2024-05-14 | 平安医疗健康管理股份有限公司 | 基于自然语言处理模型的舆情监测方法及其相关设备 |
CN113722508A (zh) * | 2021-09-02 | 2021-11-30 | 中国农业银行股份有限公司 | 词云展示方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112149409B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149409B (zh) | 医疗词云生成方法、装置、计算机设备及存储介质 | |
CN109906449B (zh) | 一种查找方法及装置 | |
CN111984793A (zh) | 文本情感分类模型训练方法、装置、计算机设备及介质 | |
CN111639486A (zh) | 段落搜索方法、装置、电子设备及存储介质 | |
CN113707297A (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN113707303A (zh) | 基于知识图谱的医疗问题解答方法、装置、设备及介质 | |
CN112614578B (zh) | 医生智能推荐方法、装置、电子设备及存储介质 | |
Kadima et al. | Toward ontology-based personalization of a recommender system in social network | |
CN112860848B (zh) | 信息检索方法、装置、设备及介质 | |
CN110598200B (zh) | 语义识别方法及装置 | |
CN113342979B (zh) | 热点话题识别方法、计算机设备及存储介质 | |
CN111985241A (zh) | 医学信息查询方法、装置、电子设备及介质 | |
CN111753089A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
CN111858834B (zh) | 基于ai的案件争议焦点确定方法、装置、设备及介质 | |
CN112199494A (zh) | 医疗信息搜索方法、装置、电子设备及存储介质 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN113887941A (zh) | 业务流程生成方法、装置、电子设备及介质 | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN113065355B (zh) | 专业百科命名实体识别方法、系统及电子设备 | |
CN113468288B (zh) | 基于人工智能的文本课件的内容抽取方法及相关设备 | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210202 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |