CN104965992A - 一种基于在线医疗问答信息的文本挖掘方法 - Google Patents
一种基于在线医疗问答信息的文本挖掘方法 Download PDFInfo
- Publication number
- CN104965992A CN104965992A CN201510410117.1A CN201510410117A CN104965992A CN 104965992 A CN104965992 A CN 104965992A CN 201510410117 A CN201510410117 A CN 201510410117A CN 104965992 A CN104965992 A CN 104965992A
- Authority
- CN
- China
- Prior art keywords
- question
- medical
- answer information
- entity
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于在线医疗问答信息的文本挖掘方法,所述文本挖掘方法包括以下步骤:采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取;在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别;通过医疗命名实体识别对医疗实体关系进行挖掘。本方法可以有效获取各类实体之间潜在的关联关系。该方法适用于所有疾病类别的挖掘工作,而且具有一定的可扩展性。
Description
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于在线医疗问答信息的文本挖掘方法。
背景技术
近来,随着互联网的飞速发展,各种社交媒体大量涌现,在健康相关的医疗领域,出现了许多在线疾病问答网站,它们为患者提供了更多元化的医疗信息获取渠道。这些网站主要以健康知识,疾病信息,医疗新闻等为主要内容,同时也提供用户在线疾病问答功能。在国内,比较知名的有新浪健康、寻医问药、好大夫在线、39问医生等网站中,包含了许多疾病问答信息,然而这些问答信息在文本中处于一种非结构化的状态。为了实现问答信息的充分利用,抽取和挖掘出有用的医疗知识,进行命名实体识别通常是第一步。这样的数据有着广泛的参与人群,包含了大量真实的个人案例,潜藏着丰富的医疗价值。
提高信息的利用率,充分挖掘其中潜藏的知识信息,可以为将来医疗知识的构建,医疗水平的提升,人们生活的改善有着很大帮助。目前,在医疗领域,针对电子病历、各种医疗报告、医学文献等的实体识别工作已有不少,但针对医疗问答网站中的疾病问答信息尚未见到相关研究。
发明内容
本发明提供了一种基于在线医疗问答信息的文本挖掘方法,本发明通过从网络上获取疾病相关的问答信息,抽取出问答文本并进行实体识别和关系挖掘,可以有效地识别出在线问答信息中的医疗名词实体,并挖掘出各类实体之间潜藏的相关关系,详见下文描述:
一种基于在线医疗问答信息的文本挖掘方法,所述文本挖掘方法包括以下步骤:
采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取;
在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别;
通过医疗命名实体识别对医疗实体关系进行挖掘。
在所述采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤之前,所述文本挖掘方法还包括:
面对公开的web数据,调研医疗的相关网站,分析并确定爬取链接、网页数据规模的具体情况,然后采用网络爬虫进行网页数据的爬取。
在所述采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤具体为:
1)分析网页特点,找到目标内容的特有标签或者路径,针对各类网页设计对应的模板;
2)设计网页数据的存储格式;
3)编写程序抽取所需网页数据。
在所述在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别的步骤具体为:
条件随机场模型的特征如下:
1)符号特征,分词后的词语本身;
2)词性特征,词性标注器所标注的多种词性;
3)形态特征,当前词的构成情况,包括:英文字母特征和数字特征;
4)后缀特征,当前词语的最后一个字;
5)身体部位指示词特征,标记当前词是否为身体部位有关的词语;
6)上下文特征,在目标实体附近会出现与实体类别相关的指示词;
所述医疗命名实体识别为监督学习的方法,通过人工标注数据进行条件随机场模型的训练,数据标注采用BIO模型,标注完成后将各列特征转化成条件随机场模型输入所需格式。
其中,在标注完成之前,所述方法还包括:对问答文本的预处理。
所述对问答文本的预处理的步骤具体为:
过滤掉没有回答的提问;将所有出现的英文字符转换为小写;
保留标点符号,并将文本空格替换为中文逗号;
采用标注数据训练,即可获得医疗命名实体识别的有效条件随机场模型。
其中,所述通过医疗命名实体识别对医疗实体关系进行挖掘的步骤具体为:
基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法。
其中,所述基于关联规则的实体关系挖掘方法具体为:
通过医疗命名实体识别从每一篇问答信息中抽取出各类目标实体,汇总并人工合并具有相同语义概念、以及同一类别下过于细化的目标实体,针对每一个目标实体进行编号;
根据每一篇问答信息中目标实体出现的情况将每一篇问答都转换成一个N维的向量,采用关联规则算法获取具有较高置信度和支持度的规则,即获得关联紧密的实体对。
其中,所述基于相似度计算的实体关系挖掘方法具体为:
计算文本共现相似度,计算词语相似度;通过所述文本共现相似度、所述词语相似度获取实体相似度,并排序。
本发明提供的技术方案的有益效果是:本发明可以充分利用互联网上大量的公开数据进行医疗知识的发现。通过利用标注数据进行模型训练,可以得到实体识别的有效模型,进而对大量医疗实体进行自动识别。在医疗实体关系挖掘上,提出了综合考虑实体共现关系和实体语义关联的关系挖掘方法,通过该方法可以有效获取各类实体之间潜在的关联关系。该方法适用于所有疾病类别的挖掘工作,而且具有一定的可扩展性,将来可以考虑添加更多的特征线索。
附图说明
图1为基于在线医疗问答信息的文本挖掘方法的流程图;
图2为基于DOM和网页模板的信息抽取过程的示意图;
图3为问答数据设计的存储格式的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一种基于在线医疗问答信息的文本挖掘方法,包括:在线医疗问答数据获取,疾病问答中的医疗命名实体识别,医疗实体关系挖掘。其中,数据获取包括网络数据的定向爬取和疾病问答信息的抽取。疾病问答中的医疗命名实体识别,包括实体类别的定义,识别模型选择和特征设计。医疗实体关系挖掘,包括基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法,下面结合具体的附图对本方案进行详细说明。
实施例1
101:采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取;
102:在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别;
103:通过医疗命名实体识别对医疗实体关系进行挖掘。
在步骤101采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤之前,该文本挖掘方法还包括:
面对公开的web数据,调研医疗的相关网站,分析并确定爬取链接、网页数据规模的具体情况,然后采用网络爬虫进行网页数据的爬取。
其中,步骤101中的采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤具体为:
1)分析网页特点,找到目标内容的特有标签或者路径,针对各类网页设计对应的模板;
2)设计网页数据的存储格式;
3)编写程序抽取所需网页数据。
其中,步骤102中的在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别的步骤具体为:
条件随机场模型的特征如下:
1)符号特征,分词后的词语本身;
2)词性特征,词性标注器所标注的多种词性;
3)形态特征,当前词的构成情况,包括:英文字母特征和数字特征;
4)后缀特征,当前词语的最后一个字;
5)身体部位指示词特征,标记当前词是否为身体部位有关的词语;
6)上下文特征,在目标实体附近会出现与实体类别相关的指示词;
医疗命名实体识别为监督学习的方法,通过人工标注数据进行条件随机场模型的训练,数据标注采用BIO模型,标注完成后将各列特征转化成条件随机场模型输入所需格式。
其中,在标注完成之前,该方法还包括:对问答文本的预处理。
其中,对问答文本的预处理的步骤具体为:
过滤掉没有回答的提问;将所有出现的英文字符转换为小写;
保留标点符号,并将文本空格替换为中文逗号;
采用标注数据训练,即可获得医疗命名实体识别的有效条件随机场模型。
其中,步骤103中的通过医疗命名实体识别对医疗实体关系进行挖掘的步骤具体为:
基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法。
进一步地,基于关联规则的实体关系挖掘方法具体为:
通过医疗命名实体识别从每一篇问答信息中抽取出各类目标实体,汇总并人工合并具有相同语义概念、以及同一类别下过于细化的目标实体,针对每一个目标实体进行编号;
根据每一篇问答信息中目标实体出现的情况将每一篇问答都转换成一个N维的向量,采用关联规则算法获取具有较高置信度和支持度的规则,即获得关联紧密的实体对。
进一步地,基于相似度计算的实体关系挖掘方法具体为:
计算文本共现相似度,计算词语相似度;通过所述文本共现相似度、所述词语相似度获取实体相似度,并排序。
实施例2
201:网络疾病问答数据的获取与内容抽取;
由于该医疗信息分析挖掘方法主要面向在线医疗问答展开,试图将问答数据中包含的医疗知识结构化,因此,首要任务就是网络疾病问答数据的获取。
具体步骤如下:面对公开的web数据,首先调研医疗的相关网站,分析并确定爬取链接、网页数据规模的具体情况,然后采用网络爬虫进行网页数据的爬取。随后,采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取。
其中,参见图2,基于DOM和网页模板的网络数据抽取主要包括以下步骤:
1)分析网页特点,提取特征信息(即,找到目标内容的特有标签或者路径),针对各类网页设计对应的模板(如果网站有更新,模板同时也需要更新),也即各个模块(目标内容所在的页面部分)的获取方法;
2)设计网页数据的存储格式(网页数据的存储采用可扩展标记语言(Extensible MarkupLanguage,XML));
具体的设计流程为本领域技术人员所公知,参见图3,为针对好大夫的问答数据设计的存储格式,主要储存页面的url信息、疾病种类、病人提问和医生回答的具体情况。
3)编写程序抽取所需网页数据。
具体说来,首先将网页解析为html解析树,然后根据设计的网页模板对html解析树进行修剪,最终获得目标内容并将其储存为上述格式。
202:疾病问答中的医疗命名实体识别;
识别目标是从问答信息中抽取出与疾病相关的医疗概念和信息。针对在线医疗问答信息,定义了五类目标命名实体:疾病、症状、药品、治疗方法和医疗检查。命名实体识别采用目前比较流行的条件随机场模型进行,条件随机场模型的特征设计如下:
1)符号特征
指分词后的词语本身。
例如下面一句分词后的句子,“10/年/开始/服用/索拉菲尼”,“服用”、“索拉菲尼”等每个分词词语就作为其中一维特征。为了使分词结果更为准确有效,分词时引入自定义医药词典,包括ICD-10和从各输入法获取的医药词典。
2)词性特征
通常采用的词性特征为词性标注器所标注的多种词性。例如ansj分词系统中包括的名词n、动词v、连词c、标点符号w、形容词a等多种词性。
3)形态特征
该形态特征指的是当前词的构成情况,具体包括两个特征:英文字母特征和数字特征。英文字母特征用于标记词当中是否包含有英文字母,数字特征用于标记该词是否由数字构成。例如词语“ct”、“MRI”中包括英文字母,就将其英文字母特征标记为1,句子“早晚/一次/20/mg”中,词语“20”由数字构成,就将其数字特征标记为1。
4)后缀特征
此处后缀特征,指当前词语的最后一个字。例如词语“替米沙坦片”中“片”字就作为其后缀特征。
5)身体部位指示词特征
用于标记当前词是否为身体部位有关的词语,是则记为’y’,否则记为’n’。例如在句子“背部/疼痛/,/弯腰/疼痛/强烈/。”中,“背部”就是一个身体部位相关的词语,因此将该特征标记为“y”。
6)上下文特征
在词语组成的序列中,上下文之间是存在相关性的,在目标实体附近可能会出现与实体类别相关的指示词。该特征也即条件随机场(CRF)模型中的边的特征,当选用不同的窗口长度时,将对各种特征进行组合形成新的特征。
该医疗命名实体识别方法为监督学习的方法,需要有一定量的人工标注数据进行CRF模型的训练。数据标注采用BIO模型[1],它可以将分块转化为序列标记确定问题。标注完成后将各列特征转化成CRF模型输入所需格式。标注之前先进行问答文本的预处理,即:
过滤掉没有回答的提问。因为没有回答的提问对于研究意义不大,包含的信息量也不够充足。
将所有出现的英文字符转换为小写。
保留标点符号,并将文本空格替换为中文逗号。
采用标注数据训练,即可获得医疗命名实体识别的有效CRF模型。
203:医疗实体关系挖掘。
医疗实体关系挖掘包括两种方法:基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法。
基于关联规则的实体关系挖掘方法,主要步骤为:采用步骤202中的医疗命名实体识别从每一篇问答信息中抽取出各类目标实体,汇总并人工合并具有相同语义概念和同一类别下过于细化的目标实体,针对每一个目标实体进行编号(若目标实体分布出现严重的长尾分布,可以选择出现次数较多的目标实体进行分析挖掘),假设最大编号值为N。
根据每一篇问答信息中实体出现的情况将每一篇问答都转换成一个N维的向量,采用关联规则算法获取其中具有较高置信度和支持度的规则,即获得关联紧密的实体对。该方法主要利用的是目标实体在同一篇问答文本中的共现关系。
例如,针对好大夫在线采集的五类疾病(胃炎、肺癌、高血压、糖尿病、哮喘)共4315条问答信息进行医疗命名实体识别,得到实体数目如下表所示。由于不同实体的出现次数情况具有严重的长尾分布,只选取了每类实体前100个进行分析挖掘,并进行了语义概念的合并,如将“小细胞肺癌”、“非小细胞肺癌”、“周围型肺癌”、“肺腺癌”等合并后对应到了同一个语义概念“肺癌”上(即将同一类别下过于细化的目标实体合并)。
表1 实体关系挖掘数据集各类实体数目情况
实体类别 | 检查 | 疾病 | 药物 | 症状 | 治疗方法 |
实体数目 | 1309 | 2488 | 4020 | 2414 | 876 |
设置最小支持度为15%,最小置信度为20%进行关联规则挖掘,得到结果整理后如表所示:
表2 关联规则结果
基于相似度计算的实体关系挖掘方法,除考虑了文本共现关系之外,还考虑了实体名词之间的语义关联,具体步骤如下:
1)文本共现相似度计算;
该方法主要通过建立实体共现矩阵并进行归一化实现。具体步骤为,首先建立每个医疗命名实体与问答信息的对应矩阵M,其中,E为医疗命名实体总数目,C为问答信息的总条数,为实数集。用形式化语言描述就是:
其中,Mij为标记了医疗命名实体在各个问答中的情况。矩阵M中每一行对应了包括这一医疗命名实体的所有问答,而每一列就对应了一条问答信息。利用M进行矩阵运算,就可以得到医疗命名实体之间的共现关系矩阵:
G=M·MT………………………………...(2)
T为转置。
采用线性函数对G进行归一化,得到新的矩阵即作为文本共现相似度simco-occur。
simco-occur=G*……………………………(4)
其中,Gij为G中的元素;为Gij归一化后的值,max_G和min_G分别代表矩阵G中的最大值和最小值,矩阵G*为各实体在文本中的共现相似度。
2)词语相似度计算;
词语相似度通过深度学习工具Word2Vec进行计算。对Word2Vec采用医疗相关文本进行模型训练,例如,医疗新闻文本。随后利用Word2Vec就可以计算出任意两医疗实体之间的距离,将结果用矩阵进行表示,为方便后续进行整合,这里矩阵的每行每列的实体都与文本共现相似度结果对应。计算得到的余弦相似度就作为实体之间的词语相似度simword。
3)实体相似度计算和排序。
最终的实体相似度采用文本共现相似度和词语相似度综合考虑的结果:
sim=α·simco-occur+(1-α)·simword………………(5)
其中,α作为两个相似度的权重可以自行设定。为方便观察,将相似度进一步归一化为0到1之间。随后进行排序,相似度较高的即为联系比较紧密的实体。
该方法的一个示例,如针对好大夫在线的4340条问答信息,经CRF模型进行实体识别之后,关注了出现次数较多的500个实体,其中包括了疾病、症状、药物、治疗方法和检查各100个实体。首先计算这500个实体的文本共现相似度,采用了数据分析处理工具matlab进行处理。随后利用了word2vec工具计算实体词语的相似度,word2vec采用了来自新浪健康和医药界的新闻数据作为训练文本集合。当α取0.5时,按照相似度由大到小排序,选取前十条实验结果如下:
表格3 实体相似度结果前十(由大到小排序)
排序 | 实体1 | 实体2 | 相似度 |
1 | D_哮喘 | S_咳嗽 | 1 |
2 | C_血压 | D_高血压 | 0.944622 |
3 | C_血糖 | D_糖尿病 | 0.870902 |
4 | S_咳嗽 | S_气喘 | 0.76166 |
5 | D_肺癌 | T_化疗 | 0.698628 |
6 | C_血糖 | M_胰岛素 | 0.69318 |
7 | D_哮喘 | D_鼻炎 | 0.679776 |
8 | T_化疗 | T_放疗 | 0.675403 |
9 | D_哮喘 | S_气喘 | 0.669164 |
10 | D_糖尿病 | M_胰岛素 | 0.645183 |
表格中实体前面的英文字母代表实体的类别,C、D、M、S、T分别代表检查、疾病、药物、症状和治疗方法。
通过该实验可以看出本方法的可行性,满足了实际应用中的多种需要;适用于所有疾病类别的挖掘工作,而且具有一定的可扩展性,将来可以考虑添加更多的特征线索。
参考文献
[1]Erik F,Tjong Kim Sang,Sabine Buchholz.Introductionto the CoNLL-2000shared task:chunking[C]∥CoNLL-2000and LLL-2000.Lisbon
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于在线医疗问答信息的文本挖掘方法,其特征在于,所述文本挖掘方法包括以下步骤:
采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取;
在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别;
通过医疗命名实体识别对医疗实体关系进行挖掘。
2.根据权利要求1所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,在所述采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤之前,所述文本挖掘方法还包括:
面对公开的web数据,调研医疗的相关网站,分析并确定爬取链接、网页数据规模的具体情况,然后采用网络爬虫进行网页数据的爬取。
3.根据权利要求1所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,在所述采用基于DOM和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答信息的提取的步骤具体为:
1)分析网页特点,找到目标内容的特有标签或者路径,针对各类网页设计对应的模板;
2)设计网页数据的存储格式;
3)编写程序抽取所需网页数据。
4.根据权利要求1所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,在所述在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别的步骤具体为:
条件随机场模型的特征如下:
1)符号特征,分词后的词语本身;
2)词性特征,词性标注器所标注的多种词性;
3)形态特征,当前词的构成情况,包括:英文字母特征和数字特征;
4)后缀特征,当前词语的最后一个字;
5)身体部位指示词特征,标记当前词是否为身体部位有关的词语;
6)上下文特征,在目标实体附近会出现与实体类别相关的指示词;
所述医疗命名实体识别为监督学习的方法,通过人工标注数据进行条件随机场模型的训练,数据标注采用BIO模型,进行特征计算之后,将特征值和标注标签输入条件随机场模型进行训练。
5.根据权利要求4所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,在标注完成之前,所述方法还包括:对问答文本的预处理。
6.根据权利要求5所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,所述对问答文本的预处理的步骤具体为:
过滤掉没有回答的提问;将所有出现的英文字符转换为小写;
保留标点符号,并将文本空格替换为中文逗号;
采用标注数据训练,即可获得医疗命名实体识别的有效条件随机场模型。
7.根据权利要求1所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,所述通过医疗命名实体识别对医疗实体关系进行挖掘的步骤具体为:
基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法。
8.根据权利要求7所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,所述基于关联规则的实体关系挖掘方法具体为:
通过医疗命名实体识别从每一篇问答信息中抽取出各类目标实体,汇总并人工合并具有相同语义概念、以及同一类别下过于细化的目标实体,针对每一个目标实体进行编号;
根据每一篇问答信息中目标实体出现的情况将每一篇问答都转换成一个N维的向量,采用关联规则算法获取具有较高置信度和支持度的规则,即获得关联紧密的实体对。
9.根据权利要求7所述的一种基于在线医疗问答信息的文本挖掘方法,其特征在于,所述基于相似度计算的实体关系挖掘方法具体为:
计算文本共现相似度,计算词语相似度;通过所述文本共现相似度、所述词语相似度获取实体相似度,并排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510410117.1A CN104965992B (zh) | 2015-07-13 | 2015-07-13 | 一种基于在线医疗问答信息的文本挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510410117.1A CN104965992B (zh) | 2015-07-13 | 2015-07-13 | 一种基于在线医疗问答信息的文本挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104965992A true CN104965992A (zh) | 2015-10-07 |
CN104965992B CN104965992B (zh) | 2018-01-09 |
Family
ID=54220030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510410117.1A Active CN104965992B (zh) | 2015-07-13 | 2015-07-13 | 一种基于在线医疗问答信息的文本挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965992B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930346A (zh) * | 2016-04-06 | 2016-09-07 | 清华大学 | 互联网案例信息提取方法及装置 |
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106845061A (zh) * | 2016-11-02 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能问诊系统和方法 |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN106934235A (zh) * | 2017-03-09 | 2017-07-07 | 中国科学院软件研究所 | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 |
CN106933797A (zh) * | 2015-12-29 | 2017-07-07 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN107766395A (zh) * | 2017-03-03 | 2018-03-06 | 平安医疗健康管理股份有限公司 | 数据匹配方法和装置 |
CN107977379A (zh) * | 2016-10-25 | 2018-05-01 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN107992556A (zh) * | 2017-11-28 | 2018-05-04 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN108132947A (zh) * | 2016-12-01 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 实体挖掘系统和方法 |
CN108228712A (zh) * | 2017-11-30 | 2018-06-29 | 北京三快在线科技有限公司 | 一种实体挖掘方法及装置,电子设备 |
CN108511044A (zh) * | 2017-02-23 | 2018-09-07 | 珠海健康云科技有限公司 | 一种互联网咨询分诊方法及系统 |
CN108932349A (zh) * | 2018-08-17 | 2018-12-04 | 齐鲁工业大学 | 医疗自动问答方法及装置、存储介质、电子设备 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
CN109189900A (zh) * | 2018-08-03 | 2019-01-11 | 北京捷易迅信息技术有限公司 | 一种用于bot系统的实体抽取方法 |
CN109284497A (zh) * | 2017-07-20 | 2019-01-29 | 京东方科技集团股份有限公司 | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 |
CN109448857A (zh) * | 2018-10-17 | 2019-03-08 | 南京理工大学 | 医疗咨询信息聚合分析方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN109872775A (zh) * | 2019-02-21 | 2019-06-11 | 北京迈迪培尔信息技术有限公司 | 一种文献标注方法、装置、设备及计算机可读介质 |
CN109885664A (zh) * | 2019-01-08 | 2019-06-14 | 厦门快商通信息咨询有限公司 | 一种智能对话方法、机器人对话系统、服务器及存储介质 |
CN110020005A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111428104A (zh) * | 2020-01-21 | 2020-07-17 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
WO2020207179A1 (zh) * | 2019-04-09 | 2020-10-15 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
CN111986761A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 多维度并发症信息抽取方法、装置、电子设备及介质 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112562846A (zh) * | 2019-09-25 | 2021-03-26 | 中国联合网络通信集团有限公司 | 一种动物疾病诊断装置 |
CN109145303B (zh) * | 2018-09-06 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
-
2015
- 2015-07-13 CN CN201510410117.1A patent/CN104965992B/zh active Active
Non-Patent Citations (9)
Title |
---|
DINGCHENG LI等: ""Conditional Random Fields and Support Vector Machines for Disorder Named Entity Recognition in Clinical Texts"", 《PROCEEDINGS OF THE HLT WORKSHOP ON CURRENT TRENDS IN BIOMEDICAL NATURAL LANGUAGE PROCESSING》 * |
YUTA TSUBOI等: ""Training Conditional Random Fields Using Incomplete Annotations"", 《PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 * |
任颖等: ""基于网页结构特征的中文命名实体识别和关联算法"", 《自动化技术与应用》 * |
周波: ""面向问答系统的实体识别与分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李文等: ""基于XML和DOM技术的Web信息抽取模型"", 《大连交通大学学报》 * |
杨锦锋等: ""电子病历命名实体识别和实体关系抽取研究综述"", 《自动化学报》 * |
王丽等: ""基于DOM和网页模板的Web信息抽取"", 《电脑知识与技术》 * |
王莉等: ""网络文本中文药名实体识别"", 《辽宁科技大学学报》 * |
苏娅等: ""在线医疗文本中的实体识别研究"", 《北京大学学报(自然科学版)》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933797A (zh) * | 2015-12-29 | 2017-07-07 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN105930346A (zh) * | 2016-04-06 | 2016-09-07 | 清华大学 | 互联网案例信息提取方法及装置 |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106446526B (zh) * | 2016-08-31 | 2019-11-15 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN106407443B (zh) * | 2016-09-28 | 2022-04-22 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN107977379B (zh) * | 2016-10-25 | 2022-06-28 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN107977379A (zh) * | 2016-10-25 | 2018-05-01 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN106845061A (zh) * | 2016-11-02 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能问诊系统和方法 |
CN108132947B (zh) * | 2016-12-01 | 2022-06-03 | 百度在线网络技术(北京)有限公司 | 实体挖掘系统和方法 |
CN108132947A (zh) * | 2016-12-01 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 实体挖掘系统和方法 |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 |
CN106874643B (zh) * | 2016-12-27 | 2020-02-28 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 |
CN108511044B (zh) * | 2017-02-23 | 2021-12-17 | 珠海健康云科技有限公司 | 一种互联网咨询分诊方法及系统 |
CN108511044A (zh) * | 2017-02-23 | 2018-09-07 | 珠海健康云科技有限公司 | 一种互联网咨询分诊方法及系统 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106919794B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106934220B (zh) * | 2017-02-24 | 2019-07-19 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN107766395A (zh) * | 2017-03-03 | 2018-03-06 | 平安医疗健康管理股份有限公司 | 数据匹配方法和装置 |
CN107766395B (zh) * | 2017-03-03 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 数据匹配方法和装置 |
CN106934235A (zh) * | 2017-03-09 | 2017-07-07 | 中国科学院软件研究所 | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 |
CN106934235B (zh) * | 2017-03-09 | 2019-06-11 | 中国科学院软件研究所 | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN109284497A (zh) * | 2017-07-20 | 2019-01-29 | 京东方科技集团股份有限公司 | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 |
CN109284497B (zh) * | 2017-07-20 | 2021-01-12 | 京东方科技集团股份有限公司 | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 |
US11586809B2 (en) | 2017-07-20 | 2023-02-21 | Boe Technology Group Co., Ltd. | Method and apparatus for recognizing medical entity in medical text |
CN107992556B (zh) * | 2017-11-28 | 2020-08-21 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN107992556A (zh) * | 2017-11-28 | 2018-05-04 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN108228712A (zh) * | 2017-11-30 | 2018-06-29 | 北京三快在线科技有限公司 | 一种实体挖掘方法及装置,电子设备 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
CN109189900A (zh) * | 2018-08-03 | 2019-01-11 | 北京捷易迅信息技术有限公司 | 一种用于bot系统的实体抽取方法 |
CN108932349A (zh) * | 2018-08-17 | 2018-12-04 | 齐鲁工业大学 | 医疗自动问答方法及装置、存储介质、电子设备 |
CN109145303B (zh) * | 2018-09-06 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109448857A (zh) * | 2018-10-17 | 2019-03-08 | 南京理工大学 | 医疗咨询信息聚合分析方法 |
CN109448857B (zh) * | 2018-10-17 | 2021-10-26 | 南京理工大学 | 医疗咨询信息聚合分析方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN109885664A (zh) * | 2019-01-08 | 2019-06-14 | 厦门快商通信息咨询有限公司 | 一种智能对话方法、机器人对话系统、服务器及存储介质 |
CN109872775B (zh) * | 2019-02-21 | 2021-04-30 | 北京迈迪培尔信息技术有限公司 | 一种文献标注方法、装置、设备及计算机可读介质 |
CN109872775A (zh) * | 2019-02-21 | 2019-06-11 | 北京迈迪培尔信息技术有限公司 | 一种文献标注方法、装置、设备及计算机可读介质 |
CN110020005A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
CN110020005B (zh) * | 2019-03-28 | 2021-03-26 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
WO2020207179A1 (zh) * | 2019-04-09 | 2020-10-15 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN112562846A (zh) * | 2019-09-25 | 2021-03-26 | 中国联合网络通信集团有限公司 | 一种动物疾病诊断装置 |
CN111078875B (zh) * | 2019-12-03 | 2022-12-13 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111428104A (zh) * | 2020-01-21 | 2020-07-17 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
CN111428104B (zh) * | 2020-01-21 | 2023-10-10 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN111986761A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 多维度并发症信息抽取方法、装置、电子设备及介质 |
CN111986761B (zh) * | 2020-09-03 | 2024-06-25 | 深圳平安智慧医健科技有限公司 | 多维度并发症信息抽取方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104965992B (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965992B (zh) | 一种基于在线医疗问答信息的文本挖掘方法 | |
Surdeanu | Overview of the TAC2013 Knowledge Base Population Evaluation: English Slot Filling and Temporal Slot Filling. | |
CN108664595B (zh) | 领域知识库构建方法、装置、计算机设备和存储介质 | |
CN108182262A (zh) | 基于深度学习和知识图谱的智能问答系统构建方法和系统 | |
CN114595344B (zh) | 面向农作物品种管理的知识图谱构建方法及装置 | |
CN106874643A (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
CN105653590A (zh) | 一种中文文献作者重名消歧的方法 | |
Do et al. | Extracting and matching authors and affiliations in scholarly documents | |
Chan et al. | Reproducible extraction of cross-lingual topics (rectr) | |
CN102253930A (zh) | 一种文本翻译的方法及装置 | |
CN105389470A (zh) | 一种中医针灸领域实体关系自动抽取的实现方法 | |
Dziob et al. | plWordNet 4.1-a linguistically motivated, corpus-based bilingual resource | |
Vo et al. | Feature-enriched matrix factorization for relation extraction | |
Baskaran et al. | Automated scraping of structured data records from health discussion forums using semantic analysis | |
CN106202035B (zh) | 基于组合方法的越南语兼类词消歧方法 | |
CN113065330A (zh) | 一种从非结构化数据中提取敏感信息的方法 | |
Zuccon et al. | De-identification of health records using Anonym: Effectiveness and robustness across datasets | |
De Benedictis et al. | Glossboot: Bootstrapping multilingual domain glossaries from the web | |
CN110209721A (zh) | 判决文书调取方法、装置、服务器及存储介质 | |
Zhang et al. | Improving distantly-supervised named entity recognition for traditional Chinese medicine text via a novel back-labeling approach | |
Lee et al. | Conditional random fields for clinical named entity recognition: a comparative study using Korean clinical texts | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
Malke et al. | Enhancing case capture, quality, and completeness of primary melanoma pathology records via natural language processing | |
Guo et al. | Identifying COVID-19 cases and extracting patient reported symptoms from Reddit using natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |