CN111581337A - 医疗文本搜索方法、装置、计算机设备及存储介质 - Google Patents
医疗文本搜索方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111581337A CN111581337A CN202010195666.2A CN202010195666A CN111581337A CN 111581337 A CN111581337 A CN 111581337A CN 202010195666 A CN202010195666 A CN 202010195666A CN 111581337 A CN111581337 A CN 111581337A
- Authority
- CN
- China
- Prior art keywords
- medical
- text
- searched
- texts
- expanded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 84
- 238000012549 training Methods 0.000 claims description 41
- 230000002457 bidirectional effect Effects 0.000 claims description 24
- 230000007787 long-term memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 206010012601 diabetes mellitus Diseases 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 4
- 208000017667 Chronic Disease Diseases 0.000 description 2
- 230000001093 anti-cancer Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 201000001421 hyperglycemia Diseases 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种医疗文本搜索方法及相关设备。所述方法获取多个医疗文本;对多个医疗文本中的每个医疗文本进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体;接收请求方的搜索请求;对待搜索文本进行扩展;对扩展后的待搜索文本进行医疗命名实体识别;在多个医疗文本中搜索医疗命名实体与扩展后的待搜索文本匹配、来源及类型与待搜索文本匹配并且发布时间晚于待搜索文本的限制时间的多个候选医疗文本;根据多个候选医疗文本的医疗命名实体的位置序号和扩展后的待搜索文本的多个医疗命名实体计算多个候选医疗文本的匹配得分;将匹配得分最高的预设数量的候选医疗文本返回请求方。本发明提升医疗文本搜索的准确度。
Description
技术领域
本发明涉及实体识别技术领域,具体涉及一种医疗文本搜索方法、装置、计算机设备及计算机存储介质。
背景技术
蕴含在医疗文本中的知识对生物医学的医疗实践、教学和科研都有重要的意义。而医疗文本的巨大数量使得人们在海量的文献集中发现和获取这些有用的信息变得愈加困难。因此,针对海量医疗文本的准确的搜索工具成为相关人员的迫切需要。
发明内容
鉴于以上内容,有必要提出一种医疗文本搜索方法、装置、计算机设备及计算机存储介质,其可以识别待识别药物语句中的药物。
本申请的第一方面提供一种医疗文本搜索方法,所述方法包括:
获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址;
对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号;
接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源;
对所述待搜索文本进行扩展,得到扩展后的待搜索文本;
对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体;
在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本;
根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分;
将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
另一种可能的实现方式中,所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别包括:
对每个医疗文本的标题、摘要、正文内容进行分句、去重、错误修正预处理,得到预处理后的文本内容;
将所述预处理后的文本内容中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第一双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第一条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
另一种可能的实现方式中,在所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别之前,所述方法还包括:
获取医疗训练语句和所述医疗训练语句的标签向量序列;
将所述医疗训练语句转化为向量序列;
将所述医疗训练语句的向量序列输入所述第一双向长短时记忆网络,得到所述医疗训练语句的特征向量序列,将所述医疗训练语句的特征向量序列输入所述第一条件随机场,得到所述医疗训练语句的标记序列;
根据所述医疗训练语句的标签向量序列和标记序列通过梯度下降法调整所述第一双向长短时记忆网络和所述第一条件随机场的隐藏层的权重和偏置值。
另一种可能的实现方式中,所述对所述待搜索文本进行扩展包括:
对所述待搜索文本进行分词处理,得到多个目标词语;
确定所述多个词语中每个目标词语的近义词集合;
在所述待搜索文本中用每个目标词语的近义词集合中的词语替换该目标词语,将每次替换后的所述待搜索文本确定为一个扩展后的待搜索文本。
另一种可能的实现方式中,所述确定所述多个词语中每个目标词语的近义词集合包括:
从预设近义词词典中查询该目标词语的近义词;和/或
获取历史搜索信息,从所述历史搜索信息中标记的医疗文本中确定该目标词语的近义词;和/或
从所述待搜索文本中删除该目标词语,得到该目标词语的匹配模板,从所述多个医疗文本中查找所述匹配模板,将查找到的所述匹配模板所在的语句中与该目标词语对应的词语确定为该目标词语的近义词,其中,该目标词语在所述匹配模板中的位置与该目标词语对应的词语在查找到的所述匹配模板中的位置一致。
另一种可能的实现方式中,所述对所述扩展后的待搜索文本进行医疗命名实体识别包括:
对所述扩展后的待搜索文本进行预处理,得到预处理后的扩展后的待搜索文本;
将所述预处理后的扩展后的待搜索文本中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第二双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第二条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
另一种可能的实现方式中,所述根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分包括:
对于所述多个候选医疗文本中的第i个医疗文本,1≤i≤n,n为所述多个候选医疗文本的数量,根据第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的位置序号确定第i个医疗文本的位置权重Wi:
其中,mi为第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的数量,Oi,j表示第i个医疗文本中第j个医疗命名实体的位置序号,Ei,1表示位于第i个医疗文本的标题的位置序号的集合,Ei,2表示位于第i个医疗文本的摘要的位置序号的集合,Ei,3表示位于第i个医疗文本的正文内容的头尾语句的位置序号的集合,Ei,4表示位于第i个医疗文本的正文内容的非头尾语句的位置序号的集合,d1、d2、d3和d4为预设值;
根据第i个医疗文本的医疗命名实体和所述扩展后的待搜索文本的医疗命名实体计算第i个医疗文本的长度匹配度li:
其中,Ci表示第i个医疗文本中与所述扩展后的待搜索文本的医疗命名实体一致的医疗命名实体的数量,Ai表示第i个医疗文本中医疗命名实体的数量,B表示所述扩展后的待搜索文本中医疗命名实体的数量;
从第i个医疗文本中查找词语与所述扩展后的待搜索文本的词语一致的目标文本,计算所述目标文本与所述扩展后的待搜索文本的逆序数Gi,根据逆序数Gi和所述扩展后的待搜索文本计算第i个医疗文本的词序相似度si:
其中,F表示所述扩展后的待搜索文本中词语的数量;
根据第i个医疗文本的位置权重、长度匹配度和词序相似度计算第i个医疗文本的匹配得分Pi:
Pi=Wi(wi,1li+wi,2si)
其中,wi,1和wi,2为预设权重。
本申请的第二方面提供一种医疗文本搜索装置,所述装置包括:
获取模块,用于获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址;
第一识别模块,用于对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号;
接收模块,用于接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源;
扩展模块,用于对所述待搜索文本进行扩展,得到扩展后的待搜索文本;
第二识别模块,用于对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体;
搜索模块,用于在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本;
计算模块,用于根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分;
返回模块,用于将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
另一种可能的实现方式中,所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别包括:
对每个医疗文本的标题、摘要、正文内容进行分句、去重、错误修正预处理,得到预处理后的文本内容;
将所述预处理后的文本内容中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第一双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第一条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
另一种可能的实现方式中,所述医疗文本搜索装置还包括训练模块,用于在所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别之前,获取医疗训练语句和所述医疗训练语句的标签向量序列;将所述医疗训练语句转化为向量序列;将所述医疗训练语句的向量序列输入所述第一双向长短时记忆网络,得到所述医疗训练语句的特征向量序列,将所述医疗训练语句的特征向量序列输入所述第一条件随机场,得到所述医疗训练语句的标记序列;根据所述医疗训练语句的标签向量序列和标记序列通过梯度下降法调整所述第一双向长短时记忆网络和所述第一条件随机场的隐藏层的权重和偏置值。
另一种可能的实现方式中,所述对所述待搜索文本进行扩展包括:
对所述待搜索文本进行分词处理,得到多个目标词语;
确定所述多个词语中每个目标词语的近义词集合;
在所述待搜索文本中用每个目标词语的近义词集合中的词语替换该目标词语,将每次替换后的所述待搜索文本确定为一个扩展后的待搜索文本。
另一种可能的实现方式中,所述确定所述多个词语中每个目标词语的近义词集合包括:
从预设近义词词典中查询该目标词语的近义词;和/或
获取历史搜索信息,从所述历史搜索信息中标记的医疗文本中确定该目标词语的近义词;和/或
从所述待搜索文本中删除该目标词语,得到该目标词语的匹配模板,从所述多个医疗文本中查找所述匹配模板,将查找到的所述匹配模板所在的语句中与该目标词语对应的词语确定为该目标词语的近义词,其中,该目标词语在所述匹配模板中的位置与该目标词语对应的词语在查找到的所述匹配模板中的位置一致。
另一种可能的实现方式中,所述对所述扩展后的待搜索文本进行医疗命名实体识别包括:
对所述扩展后的待搜索文本进行预处理,得到预处理后的扩展后的待搜索文本;
将所述预处理后的扩展后的待搜索文本中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第二双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第二条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
另一种可能的实现方式中,所述根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分包括:
对于所述多个候选医疗文本中的第i个医疗文本,1≤i≤n,n为所述多个候选医疗文本的数量,根据第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的位置序号确定第i个医疗文本的位置权重Wi:
其中,mi为第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的数量,Oi,j表示第i个医疗文本中第j个医疗命名实体的位置序号,Ei,1表示位于第i个医疗文本的标题的位置序号的集合,Ei,2表示位于第i个医疗文本的摘要的位置序号的集合,Ei,3表示位于第i个医疗文本的正文内容的头尾语句的位置序号的集合,Ei,4表示位于第i个医疗文本的正文内容的非头尾语句的位置序号的集合,d1、d2、d3和d4为预设值;
根据第i个医疗文本的医疗命名实体和所述扩展后的待搜索文本的医疗命名实体计算第i个医疗文本的长度匹配度li:
其中,Ci表示第i个医疗文本中与所述扩展后的待搜索文本的医疗命名实体一致的医疗命名实体的数量,Ai表示第i个医疗文本中医疗命名实体的数量,B表示所述扩展后的待搜索文本中医疗命名实体的数量;
从第i个医疗文本中查找词语与所述扩展后的待搜索文本的词语一致的目标文本,计算所述目标文本与所述扩展后的待搜索文本的逆序数Gi,根据逆序数Gi和所述扩展后的待搜索文本计算第i个医疗文本的词序相似度si:
其中,F表示所述扩展后的待搜索文本中词语的数量;
根据第i个医疗文本的位置权重、长度匹配度和词序相似度计算第i个医疗文本的匹配得分Pi:
Pi=Wi(wi,1li+wi,2si)
其中,wi,1和wi,2为预设权重。
本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述医疗文本搜索方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述医疗文本搜索方法。
本发明实现了根据用户的输入从医疗文本集中搜索匹配医疗文本,提升了医疗文本搜索的准确度。
附图说明
图1是本发明实施例提供的医疗文本搜索方法的流程图。
图2是本发明实施例提供的医疗文本搜索装置的结构图。
图3是本发明实施例提供的计算机设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的医疗文本搜索方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的医疗文本搜索方法的流程图。所述医疗文本搜索方法应用于计算机设备,用于根据用户的输入从医疗文本集中搜索匹配医疗文本。
如图1所示,所述医疗文本搜索方法包括:
101,获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址。
在一具体实施例中,医疗文本可以是网页,可以直接从网络中搜索获取或通过网络爬虫从网络中抓取。每个网页可以包括该网页的发布时间、该网页的来源、该网页的内容的类型、该网页的标题、摘要和正文内容等。
通过网络爬虫技术可以将互联网中数以百亿计的网页信息保存到本地。具体为通过爬虫代码程序模拟浏览器向网络服务器发送医疗文本请求,以便将医疗文本从网络流中读取出来并保存到本地,此外,还进一步基于相关信息提取规则,从爬取的信息中提取需要的信息。优选通过Docker容器作为媒介部署指定的爬虫程序,以爬取医疗文本。爬取的网站包括指定的公示网站以及通过搜索引擎搜索到的网站。
该医疗文本的来源可以包括中华医学会、中国医师协会、中国抗癌协会等。该医疗文本的类型可以包括指南、共识、规范等。
该医疗文本对应的链接地址可以表示该医疗文本的存储路径;可以通过该医疗文本对应的链接地址定位并获取该医疗文本。
在另一实施例中,该医疗文本的类型还可以包括内科、外科、妇科等科室类型。
102,对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号。
在一具体实施例中,所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别包括:
(1)对每个医疗文本的标题、摘要、正文内容进行分句、去重、错误修正预处理,得到预处理后的文本内容。
可以对每个医疗文本的标题、摘要、正文内容进行分句预处理、去重预处理、错误修正预处理等。
(2)将所述预处理后的文本内容中的每个语句转化为向量序列。
可以对每个语句进行分词或分字。将每个语句的多个词通过训练好的词嵌入模型将每个词转化为词向量;或将每个语句的多个字通过训练好的字嵌入模型将每个字转化为字向量。依词序组合每个语句的词向量得到该语句的向量序列,或依字序组合每个语句的字向量得到该语句的向量序列。
(3)将每个语句对应的向量序列输入训练好的第一双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第一条件随机场,得到该语句的标记序列。
所述第一双向长短时记忆网络可以提取该语句的语义信息和该语句中每个词(或字)的上下文信息,并以特征向量序列的形式将提取的信息传递给所述第一条件随机场,通过所述条件随机场对该语句中的每个词(或字)进行分类,得到该语句的标记序列。
(4)根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
医疗命名实体可以包括疾病、症状和药品等。
例如,医疗文本中的一个语句为“糖尿病是危害人类身心健康的主要慢性疾病之一”的标记序列为“B-1I-1E-1O O O O O O O O O O O O O O O O O O”,则该语句的医疗命名实体为疾病“糖尿病”。其中,“B-1”表示疾病(用1表示疾病,2表示症状,3表示药品)的开始字,“I-1”表示疾病的中间字,“E-1”表示疾病的末尾字,“O”表示其他字(非命名实体的字)。
在另一实施例中,在所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别之前,所述方法还包括:
获取医疗训练语句和所述医疗训练语句的标签向量序列;
将所述医疗训练语句转化为向量序列;
将所述医疗训练语句的向量序列输入所述第一双向长短时记忆网络,得到所述医疗训练语句的特征向量序列,将所述医疗训练语句的特征向量序列输入所述第一条件随机场,得到所述医疗训练语句的标记序列;
根据所述医疗训练语句的标签向量序列和标记序列通过梯度下降法调整所述第一双向长短时记忆网络和所述第一条件随机场的隐藏层的权重和偏置值;
循环执行上述步骤,得到所述训练好的第一双向长短时记忆网络和所述训练好的第一条件随机场。
103,接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源。
在一具体实施例中,可以通过对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源对所述待搜索文本进行筛选。例如,待搜索文本为“糖尿病治疗”,对待搜索文本的限制时间为“2019”,待搜索文本的类型为“指南”,待搜索文本的目标来源为“中华医学会”。
104,对所述待搜索文本进行扩展,得到扩展后的待搜索文本。
在一具体实施例中,所述对所述待搜索文本进行扩展包括:
对所述待搜索文本进行分词处理,得到多个目标词语;
确定所述多个词语中每个目标词语的近义词集合;
在所述待搜索文本中用每个目标词语的近义词集合中的词语替换该目标词语,将每次替换后的所述待搜索文本确定为一个扩展后的待搜索文本。
在另一实施例中,所述确定所述多个词语中每个目标词语的近义词集合包括:
从预设近义词词典中查询该目标词语的近义词;和/或
获取历史搜索信息,从所述历史搜索信息中标记的医疗文本中确定该目标词语的近义词;和/或
从所述待搜索文本中删除该目标词语,得到该目标词语的匹配模板,从所述多个医疗文本中查找所述匹配模板,将查找到的所述匹配模板所在的语句中与该目标词语对应的词语确定为该目标词语的近义词,其中,该目标词语在所述匹配模板中的位置与该目标词语对应的词语在查找到的所述匹配模板中的位置一致。
105,对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体。
在一具体实施例中,所述对所述扩展后的待搜索文本进行医疗命名实体识别包括:
对所述扩展后的待搜索文本进行预处理,得到预处理后的扩展后的待搜索文本;
将所述预处理后的扩展后的待搜索文本中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第二双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第二条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
106,在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本。
例如,可以在所述多个医疗文本中搜索医疗命名实体与扩展后的待搜索文本的医疗命名实体(如糖尿病、高血糖等)匹配、来源(如中华医学会)及类型(如指南)与待搜索文本匹配并且发布时间晚于待搜索文本的限制时间(如2019)的多个候选医疗文本。
107,根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分。
在一具体实施例中,所述根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分包括:
对于所述多个候选医疗文本中的第i个医疗文本,1≤i≤n,n为所述多个候选医疗文本的数量,根据第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的位置序号确定第i个医疗文本的位置权重Wi:
其中,mi为第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的数量,Oi,j表示第i个医疗文本中第j个医疗命名实体的位置序号,Ei,1表示位于第i个医疗文本的标题的位置序号的集合,Ei,2表示位于第i个医疗文本的摘要的位置序号的集合,Ei,3表示位于第i个医疗文本的正文内容的头尾语句的位置序号的集合,Ei,4表示位于第i个医疗文本的正文内容的非头尾语句的位置序号的集合,d1、d2、d3和d4为预设值;
根据第i个医疗文本的医疗命名实体和所述扩展后的待搜索文本的医疗命名实体计算第i个医疗文本的长度匹配度li:
其中,Ci表示第i个医疗文本中与所述扩展后的待搜索文本的医疗命名实体一致的医疗命名实体的数量,Ai表示第i个医疗文本中医疗命名实体的数量,B表示所述扩展后的待搜索文本中医疗命名实体的数量;
从第i个医疗文本中查找词语与所述扩展后的待搜索文本的词语一致的目标文本,计算所述目标文本与所述扩展后的待搜索文本的逆序数Gi,根据逆序数Gi和所述扩展后的待搜索文本计算第i个医疗文本的词序相似度si:
其中,F表示所述扩展后的待搜索文本中词语的数量;
根据第i个医疗文本的位置权重、长度匹配度和词序相似度计算第i个医疗文本的匹配得分Pi:
Pi=Wi(wi,1li+wi,2si)
其中,wi,1和wi,2为预设权重。
具体地,d1>d2>d3>d4,d1、d2、d3、d4可以分别取值为4、3、2、1;wi,1、wi,2可以分别取值为0.5、0.5。
108,将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
在一具体实施例中,可以将匹配得分最高的预设数量的候选医疗文本的摘要和对应的链接地址返回所述请求方。
例如,可以将匹配得分最高的5个候选医疗文本的摘要和对应的链接地址返回给请求方,使请求方可以通过点击该链接地址获取更详细匹配度更高的信息。
实施例一的医疗文本搜索方法根据用户的输入从医疗文本集中搜索匹配医疗文本,提升了医疗文本搜索的准确度。
实施例二
图2是本发明实施例二提供的医疗文本搜索装置的结构图。所述医疗文本搜索装置20应用于计算机设备。所述医疗文本搜索装置20用于根据用户的输入从医疗文本集中搜索匹配医疗文本。
如图2所示,所述医疗文本搜索装置20可以包括获取模块201、第一识别模块202、接收模块203、扩展模块204、第二识别模块205、搜索模块206、计算模块207、返回模块208。
获取模块201,用于获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址。
在一具体实施例中,医疗文本可以是网页,可以直接从网络中搜索获取或通过网络爬虫从网络中抓取。每个网页可以包括该网页的发布时间、该网页的来源、该网页的内容的类型、该网页的标题、摘要和正文内容等。
通过网络爬虫技术可以将互联网中数以百亿计的网页信息保存到本地。具体为通过爬虫代码程序模拟浏览器向网络服务器发送医疗文本请求,以便将医疗文本从网络流中读取出来并保存到本地,此外,还进一步基于相关信息提取规则,从爬取的信息中提取需要的信息。优选通过Docker容器作为媒介部署指定的爬虫程序,以爬取医疗文本。爬取的网站包括指定的公示网站以及通过搜索引擎搜索到的网站。
该医疗文本的来源可以包括中华医学会、中国医师协会、中国抗癌协会等。该医疗文本的类型可以包括指南、共识、规范等。
该医疗文本对应的链接地址可以表示该医疗文本的存储路径;可以通过该医疗文本对应的链接地址定位并获取该医疗文本。
在另一实施例中,该医疗文本的类型还可以包括内科、外科、妇科等科室类型。
第一识别模块202,用于对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号。
在一具体实施例中,所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别包括:
(1)对每个医疗文本的标题、摘要、正文内容进行分句、去重、错误修正预处理,得到预处理后的文本内容。
可以对每个医疗文本的标题、摘要、正文内容进行分句预处理、去重预处理、错误修正预处理等。
(2)将所述预处理后的文本内容中的每个语句转化为向量序列。
可以对每个语句进行分词或分字。将每个语句的多个词通过训练好的词嵌入模型将每个词转化为词向量;或将每个语句的多个字通过训练好的字嵌入模型将每个字转化为字向量。依词序组合每个语句的词向量得到该语句的向量序列,或依字序组合每个语句的字向量得到该语句的向量序列。
(3)将每个语句对应的向量序列输入训练好的第一双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第一条件随机场,得到该语句的标记序列。
所述第一双向长短时记忆网络可以提取该语句的语义信息和该语句中每个词(或字)的上下文信息,并以特征向量序列的形式将提取的信息传递给所述第一条件随机场,通过所述条件随机场对该语句中的每个词(或字)进行分类,得到该语句的标记序列。
(4)根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
医疗命名实体可以包括疾病、症状和药品等。
例如,医疗文本中的一个语句为“糖尿病是危害人类身心健康的主要慢性疾病之一”的标记序列为“B-1 I-1 E-1 O O O O O O O O O O O O O O O O O O”,则该语句的医疗命名实体为疾病“糖尿病”。其中,“B-1”表示疾病(用1表示疾病,2表示症状,3表示药品)的开始字,“I-1”表示疾病的中间字,“E-1”表示疾病的末尾字,“O”表示其他字(非命名实体的字)。
在另一实施例中,在所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别之前,所述方法还包括:
获取医疗训练语句和所述医疗训练语句的标签向量序列;
将所述医疗训练语句转化为向量序列;
将所述医疗训练语句的向量序列输入所述第一双向长短时记忆网络,得到所述医疗训练语句的特征向量序列,将所述医疗训练语句的特征向量序列输入所述第一条件随机场,得到所述医疗训练语句的标记序列;
根据所述医疗训练语句的标签向量序列和标记序列通过梯度下降法调整所述第一双向长短时记忆网络和所述第一条件随机场的隐藏层的权重和偏置值;
循环执行上述步骤,得到所述训练好的第一双向长短时记忆网络和所述训练好的第一条件随机场。
接收模块203,用于接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源。
在一具体实施例中,可以通过对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源对所述待搜索文本进行筛选。例如,待搜索文本为“糖尿病治疗”,对待搜索文本的限制时间为“2019”,待搜索文本的类型为“指南”,待搜索文本的目标来源为“中华医学会”。
扩展模块204,用于对所述待搜索文本进行扩展,得到扩展后的待搜索文本。
在一具体实施例中,所述对所述待搜索文本进行扩展包括:
对所述待搜索文本进行分词处理,得到多个目标词语;
确定所述多个词语中每个目标词语的近义词集合;
在所述待搜索文本中用每个目标词语的近义词集合中的词语替换该目标词语,将每次替换后的所述待搜索文本确定为一个扩展后的待搜索文本。
在另一实施例中,所述确定所述多个词语中每个目标词语的近义词集合包括:
从预设近义词词典中查询该目标词语的近义词;和/或
获取历史搜索信息,从所述历史搜索信息中标记的医疗文本中确定该目标词语的近义词;和/或
从所述待搜索文本中删除该目标词语,得到该目标词语的匹配模板,从所述多个医疗文本中查找所述匹配模板,将查找到的所述匹配模板所在的语句中与该目标词语对应的词语确定为该目标词语的近义词,其中,该目标词语在所述匹配模板中的位置与该目标词语对应的词语在查找到的所述匹配模板中的位置一致。
第二识别模块205,用于对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体。
在一具体实施例中,所述对所述扩展后的待搜索文本进行医疗命名实体识别包括:
对所述扩展后的待搜索文本进行预处理,得到预处理后的扩展后的待搜索文本;
将所述预处理后的扩展后的待搜索文本中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第二双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第二条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
搜索模块206,用于在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本。
例如,可以在所述多个医疗文本中搜索医疗命名实体与扩展后的待搜索文本的医疗命名实体(如糖尿病、高血糖等)匹配、来源(如中华医学会)及类型(如指南)与待搜索文本匹配并且发布时间晚于待搜索文本的限制时间(如2019)的多个候选医疗文本。
计算模块207,用于根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分。
在一具体实施例中,所述根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分包括:
对于所述多个候选医疗文本中的第i个医疗文本,1≤i≤n,n为所述多个候选医疗文本的数量,根据第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的位置序号确定第i个医疗文本的位置权重Wi:
其中,mi为第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的数量,Oi,j表示第i个医疗文本中第j个医疗命名实体的位置序号,Ei,1表示位于第i个医疗文本的标题的位置序号的集合,Ei,2表示位于第i个医疗文本的摘要的位置序号的集合,Ei,3表示位于第i个医疗文本的正文内容的头尾语句的位置序号的集合,Ei,4表示位于第i个医疗文本的正文内容的非头尾语句的位置序号的集合,d1、d2、d3和d4为预设值;
根据第i个医疗文本的医疗命名实体和所述扩展后的待搜索文本的医疗命名实体计算第i个医疗文本的长度匹配度li:
其中,Ci表示第i个医疗文本中与所述扩展后的待搜索文本的医疗命名实体一致的医疗命名实体的数量,Ai表示第i个医疗文本中医疗命名实体的数量,B表示所述扩展后的待搜索文本中医疗命名实体的数量;
从第i个医疗文本中查找词语与所述扩展后的待搜索文本的词语一致的目标文本,计算所述目标文本与所述扩展后的待搜索文本的逆序数Gi,根据逆序数Gi和所述扩展后的待搜索文本计算第i个医疗文本的词序相似度si:
其中,F表示所述扩展后的待搜索文本中词语的数量;
根据第i个医疗文本的位置权重、长度匹配度和词序相似度计算第i个医疗文本的匹配得分Pi:
Pi=Wi(wi,1li+wi,2si)
其中,wi,1和wi,2为预设权重。
具体地,d1>d2>d3>d4,d1、d2、d3、d4可以分别取值为4、3、2、1;wi,1、wi,2可以分别取值为0.5、0.5。
返回模块208,用于将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
在一具体实施例中,可以将匹配得分最高的预设数量的候选医疗文本的摘要和对应的链接地址返回所述请求方。
例如,可以将匹配得分最高的5个候选医疗文本的摘要和对应的链接地址返回给请求方,使请求方可以通过点击该链接地址获取更详细匹配度更高的信息。
实施例二根据用户的输入从医疗文本集中搜索匹配医疗文本,提升了医疗文本搜索的准确度。
实施例三
本实施例提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述医疗文本搜索方法实施例中的步骤,例如图1所示的步骤101-108。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-208。
实施例四
图3为本发明实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如医疗文本搜索程序。所述处理器302执行所述计算机程序303时实现上述医疗文本搜索方法实施例中的步骤,例如图1所示的101-108。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-208。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机设备30中的执行过程。例如,所述计算机程序303可以被分割成图2中的获取模块201、第一识别模块202、接收模块203、扩展模块204、第二识别模块205、搜索模块206、计算模块207、返回模块208,各模块具体功能参见实施例二。
本领域技术人员可以理解,所述示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种医疗文本搜索方法,其特征在于,所述方法包括:
获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址;
对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号;
接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源;
对所述待搜索文本进行扩展,得到扩展后的待搜索文本;
对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体;
在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本;
根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分;
将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
2.如权利要求1所述的方法,其特征在于,所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别包括:
对每个医疗文本的标题、摘要、正文内容进行分句、去重、错误修正预处理,得到预处理后的文本内容;
将所述预处理后的文本内容中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第一双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第一条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
3.如权利要求2所述的方法,其特征在于,在所述对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别之前,所述方法还包括:
获取医疗训练语句和所述医疗训练语句的标签向量序列;
将所述医疗训练语句转化为向量序列;
将所述医疗训练语句的向量序列输入所述第一双向长短时记忆网络,得到所述医疗训练语句的特征向量序列,将所述医疗训练语句的特征向量序列输入所述第一条件随机场,得到所述医疗训练语句的标记序列;
根据所述医疗训练语句的标签向量序列和标记序列通过梯度下降法调整所述第一双向长短时记忆网络和所述第一条件随机场的隐藏层的权重和偏置值。
4.如权利要求1所述的方法,其特征在于,所述对所述待搜索文本进行扩展包括:
对所述待搜索文本进行分词处理,得到多个目标词语;
确定所述多个词语中每个目标词语的近义词集合;
在所述待搜索文本中用每个目标词语的近义词集合中的词语替换该目标词语,将每次替换后的所述待搜索文本确定为一个扩展后的待搜索文本。
5.如权利要求4所述的方法,其特征在于,所述确定所述多个词语中每个目标词语的近义词集合包括:
从预设近义词词典中查询该目标词语的近义词;和/或
获取历史搜索信息,从所述历史搜索信息中标记的医疗文本中确定该目标词语的近义词;和/或
从所述待搜索文本中删除该目标词语,得到该目标词语的匹配模板,从所述多个医疗文本中查找所述匹配模板,将查找到的所述匹配模板所在的语句中与该目标词语对应的词语确定为该目标词语的近义词,其中,该目标词语在所述匹配模板中的位置与该目标词语对应的词语在查找到的所述匹配模板中的位置一致。
6.如权利要求1所述的方法,其特征在于,所述对所述扩展后的待搜索文本进行医疗命名实体识别包括:
对所述扩展后的待搜索文本进行预处理,得到预处理后的扩展后的待搜索文本;
将所述预处理后的扩展后的待搜索文本中的每个语句转化为向量序列;
将每个语句对应的向量序列输入训练好的第二双向长短时记忆网络,得到该语句的特征向量序列,将该语句的特征向量序列输入训练好的第二条件随机场,得到该语句的标记序列;
根据所述预处理后的文本内容中的每个语句的标记序列识别医疗命名实体。
7.如权利要求1所述的方法,其特征在于,所述根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分包括:
对于所述多个候选医疗文本中的第i个医疗文本,1≤i≤n,n为所述多个候选医疗文本的数量,根据第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的位置序号确定第i个医疗文本的位置权重Wi:
其中,mi为第i个医疗文本中与所述扩展后的待搜索文本的多个医疗命名实体一致的医疗命名实体的数量,Oi,j表示第i个医疗文本中第j个医疗命名实体的位置序号,Ei,1表示位于第i个医疗文本的标题的位置序号的集合,Ei,2表示位于第i个医疗文本的摘要的位置序号的集合,Ei,3表示位于第i个医疗文本的正文内容的头尾语句的位置序号的集合,Ei,4表示位于第i个医疗文本的正文内容的非头尾语句的位置序号的集合,d1、d2、d3和d4为预设值;
根据第i个医疗文本的医疗命名实体和所述扩展后的待搜索文本的医疗命名实体计算第i个医疗文本的长度匹配度li:
其中,Ci表示第i个医疗文本中与所述扩展后的待搜索文本的医疗命名实体一致的医疗命名实体的数量,Ai表示第i个医疗文本中医疗命名实体的数量,B表示所述扩展后的待搜索文本中医疗命名实体的数量;
从第i个医疗文本中查找词语与所述扩展后的待搜索文本的词语一致的目标文本,计算所述目标文本与所述扩展后的待搜索文本的逆序数Gi,根据逆序数Gi和所述扩展后的待搜索文本计算第i个医疗文本的词序相似度si:
其中,F表示所述扩展后的待搜索文本中词语的数量;
根据第i个医疗文本的位置权重、长度匹配度和词序相似度计算第i个医疗文本的匹配得分Pi:
Pi=Wi(wi,1li+wi,2si)
其中,wi,1和wi,2为预设权重。
8.一种医疗文本搜索装置,其特征在于,所述装置包括:
获取模块,用于获取多个医疗文本,每个医疗文本包括发布时间、来源、类型、标题、摘要和正文内容,每个医疗文本有对应的链接地址;
第一识别模块,用于对所述多个医疗文本中的每个医疗文本的标题、摘要、正文内容进行医疗命名实体识别,得到每个医疗文本的多个医疗命名实体,每个医疗命名实体有对应的位置序号;
接收模块,用于接收请求方的搜索请求,所述搜索请求包括待搜索文本、对所述待搜索文本的限制时间、所述待搜索文本的类型和所述待搜索文本的目标来源;
扩展模块,用于对所述待搜索文本进行扩展,得到扩展后的待搜索文本;
第二识别模块,用于对所述扩展后的待搜索文本进行医疗命名实体识别,得到所述扩展后的待搜索文本的多个医疗命名实体;
搜索模块,用于在所述多个医疗文本中搜索医疗命名实体与所述扩展后的待搜索文本的医疗命名实体匹配、来源及类型与所述待搜索文本匹配并且发布时间晚于所述待搜索文本的限制时间的多个候选医疗文本;
计算模块,用于根据所述多个候选医疗文本的医疗命名实体的位置序号和所述扩展后的待搜索文本的多个医疗命名实体计算所述多个候选医疗文本的匹配得分;
返回模块,用于将匹配得分最高的预设数量的候选医疗文本返回所述请求方。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述医疗文本搜索方法。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述医疗文本搜索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195666.2A CN111581337A (zh) | 2020-03-19 | 2020-03-19 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
PCT/CN2020/093322 WO2021184552A1 (zh) | 2020-03-19 | 2020-05-29 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195666.2A CN111581337A (zh) | 2020-03-19 | 2020-03-19 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111581337A true CN111581337A (zh) | 2020-08-25 |
Family
ID=72114848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010195666.2A Pending CN111581337A (zh) | 2020-03-19 | 2020-03-19 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111581337A (zh) |
WO (1) | WO2021184552A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985241A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学信息查询方法、装置、电子设备及介质 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112541064A (zh) * | 2020-12-09 | 2021-03-23 | 联仁健康医疗大数据科技股份有限公司 | 健康评测方法、装置、计算机设备及存储介质 |
CN114239578A (zh) * | 2021-09-16 | 2022-03-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 命名实体的识别方法、装置、设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154514B (zh) * | 2022-02-07 | 2022-04-12 | 北京三子健康科技有限公司 | 一种中医证型识别方法及系统 |
CN114218259B (zh) * | 2022-02-21 | 2022-05-24 | 深圳市云初信息科技有限公司 | 基于大数据SaaS的多维科创信息搜索方法及系统 |
CN115775621B (zh) * | 2023-02-13 | 2023-04-21 | 深圳市汇健智慧医疗有限公司 | 基于数字化手术室的信息管理方法及系统 |
CN116108163B (zh) * | 2023-04-04 | 2023-06-27 | 之江实验室 | 一种文本的匹配方法、装置、设备及存储介质 |
CN116975295B (zh) * | 2023-09-21 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及相关产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108664515A (zh) * | 2017-03-31 | 2018-10-16 | 北京三快在线科技有限公司 | 一种搜索方法及装置,电子设备 |
CN109215796A (zh) * | 2018-08-14 | 2019-01-15 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
CN110413734A (zh) * | 2019-07-25 | 2019-11-05 | 万达信息股份有限公司 | 一种医疗服务的智能搜索系统及方法 |
CN110516260A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 实体推荐方法、装置、存储介质及设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8037052B2 (en) * | 2006-11-22 | 2011-10-11 | General Electric Company | Systems and methods for free text searching of electronic medical record data |
RU2544797C2 (ru) * | 2009-04-17 | 2015-03-20 | Конинклейке Филипс Электроникс Н.В. | Система и способ хранения варианта отчета |
US20150302084A1 (en) * | 2014-04-17 | 2015-10-22 | Robert Stewart | Data mining apparatus and method |
AU2015213399A1 (en) * | 2014-08-14 | 2016-03-03 | Accenture Global Services Limited | System for automated analysis of clinical text for pharmacovigilance |
CN106407387B (zh) * | 2016-09-18 | 2019-11-22 | 华南师范大学 | 一种针对医疗诊断文本的概念连接方法 |
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
-
2020
- 2020-03-19 CN CN202010195666.2A patent/CN111581337A/zh active Pending
- 2020-05-29 WO PCT/CN2020/093322 patent/WO2021184552A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664515A (zh) * | 2017-03-31 | 2018-10-16 | 北京三快在线科技有限公司 | 一种搜索方法及装置,电子设备 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN109215796A (zh) * | 2018-08-14 | 2019-01-15 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
CN110413734A (zh) * | 2019-07-25 | 2019-11-05 | 万达信息股份有限公司 | 一种医疗服务的智能搜索系统及方法 |
CN110516260A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 实体推荐方法、装置、存储介质及设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985241A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学信息查询方法、装置、电子设备及介质 |
CN111985241B (zh) * | 2020-09-03 | 2023-08-08 | 深圳平安智慧医健科技有限公司 | 医学信息查询方法、装置、电子设备及介质 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112149409B (zh) * | 2020-09-23 | 2024-04-02 | 深圳赛安特技术服务有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112541064A (zh) * | 2020-12-09 | 2021-03-23 | 联仁健康医疗大数据科技股份有限公司 | 健康评测方法、装置、计算机设备及存储介质 |
CN114239578A (zh) * | 2021-09-16 | 2022-03-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 命名实体的识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021184552A1 (zh) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581337A (zh) | 医疗文本搜索方法、装置、计算机设备及存储介质 | |
Xu et al. | A bidirectional LSTM and conditional random fields approach to medical named entity recognition | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
JP2021007031A (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
Cai et al. | A deep learning model incorporating part of speech and self-matching attention for named entity recognition of Chinese electronic medical records | |
JP2009521029A (ja) | 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム | |
Liu et al. | Named entity recognition in Chinese electronic medical records based on CRF | |
CN111984793A (zh) | 文本情感分类模型训练方法、装置、计算机设备及介质 | |
Shah et al. | Neural networks for mining the associations between diseases and symptoms in clinical notes | |
Zhao et al. | Leveraging text skeleton for de-identification of electronic medical records | |
Mahmoud et al. | Online-khatt: an open-vocabulary database for Arabic online-text processing | |
Brown et al. | Mechanized margin to digitized center: black feminism's contributions to combatting erasure within the digital humanities | |
JP2021119518A (ja) | 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム | |
CN111639500A (zh) | 语义角色标注方法、装置、计算机设备及存储介质 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
Üstün et al. | Unsupervised morphological segmentation using neural word embeddings | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113469163B (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
CN113065355B (zh) | 专业百科命名实体识别方法、系统及电子设备 | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
Gupta et al. | Combining graph-based dependency features with convolutional neural network for answer triggering | |
Liu et al. | Sentiment classification with medical word embeddings and sequence representation for drug reviews | |
Aromando et al. | Classification and extraction of information from ETD documents | |
Paripremkul | Word segmentation and part-of-speech tagging for Thai language using minimum text and conditional random field | |
Zurlo et al. | Abstracts Embeddings Evaluation: A Case Study of Artificial Intelligence and Medical Imaging for the COVID-19 Infection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40031279 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |