CN110489526A - 一种用于医学检索的检索词扩展方法、装置及存储介质 - Google Patents
一种用于医学检索的检索词扩展方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110489526A CN110489526A CN201910742880.2A CN201910742880A CN110489526A CN 110489526 A CN110489526 A CN 110489526A CN 201910742880 A CN201910742880 A CN 201910742880A CN 110489526 A CN110489526 A CN 110489526A
- Authority
- CN
- China
- Prior art keywords
- word
- new
- vector
- words
- initial retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- -1 carrotene Chemical compound 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 235000015097 nutrients Nutrition 0.000 description 5
- 210000000582 semen Anatomy 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- YNPNZTXNASCQKK-UHFFFAOYSA-N phenanthrene Chemical compound C1=CC=C2C3=CC=CC=C3C=CC2=C1 YNPNZTXNASCQKK-UHFFFAOYSA-N 0.000 description 4
- UPYKUZBSLRQECL-UKMVMLAPSA-N Lycopene Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C1C(=C)CCCC1(C)C)C=CC=C(/C)C=CC2C(=C)CCCC2(C)C UPYKUZBSLRQECL-UKMVMLAPSA-N 0.000 description 3
- JEVVKJMRZMXFBT-XWDZUXABSA-N Lycophyll Natural products OC/C(=C/CC/C(=C\C=C\C(=C/C=C/C(=C\C=C\C=C(/C=C/C=C(\C=C\C=C(/CC/C=C(/CO)\C)\C)/C)\C)/C)\C)/C)/C JEVVKJMRZMXFBT-XWDZUXABSA-N 0.000 description 3
- 235000008708 Morus alba Nutrition 0.000 description 3
- 240000000249 Morus alba Species 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229930003944 flavone Natural products 0.000 description 3
- 235000011949 flavones Nutrition 0.000 description 3
- 150000002213 flavones Chemical class 0.000 description 3
- 229960004999 lycopene Drugs 0.000 description 3
- 235000012661 lycopene Nutrition 0.000 description 3
- 239000001751 lycopene Substances 0.000 description 3
- OAIJSZIZWZSQBC-GYZMGTAESA-N lycopene Chemical compound CC(C)=CCC\C(C)=C\C=C\C(\C)=C\C=C\C(\C)=C\C=C\C=C(/C)\C=C\C=C(/C)\C=C\C=C(/C)CCC=C(C)C OAIJSZIZWZSQBC-GYZMGTAESA-N 0.000 description 3
- 150000008442 polyphenolic compounds Chemical class 0.000 description 3
- 235000013824 polyphenols Nutrition 0.000 description 3
- ZCIHMQAPACOQHT-ZGMPDRQDSA-N trans-isorenieratene Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/c1c(C)ccc(C)c1C)C=CC=C(/C)C=Cc2c(C)ccc(C)c2C ZCIHMQAPACOQHT-ZGMPDRQDSA-N 0.000 description 3
- 235000013343 vitamin Nutrition 0.000 description 3
- 239000011782 vitamin Substances 0.000 description 3
- 229940088594 vitamin Drugs 0.000 description 3
- 229930003231 vitamin Natural products 0.000 description 3
- GHOKWGTUZJEAQD-ZETCQYMHSA-N (D)-(+)-Pantothenic acid Chemical compound OCC(C)(C)[C@@H](O)C(=O)NCCC(O)=O GHOKWGTUZJEAQD-ZETCQYMHSA-N 0.000 description 2
- IIZPXYDJLKNOIY-JXPKJXOSSA-N 1-palmitoyl-2-arachidonoyl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCC\C=C/C\C=C/C\C=C/C\C=C/CCCCC IIZPXYDJLKNOIY-JXPKJXOSSA-N 0.000 description 2
- 241000227129 Aconitum Species 0.000 description 2
- 244000061520 Angelica archangelica Species 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 2
- 241000208671 Campanulaceae Species 0.000 description 2
- 235000008495 Chrysanthemum leucanthemum Nutrition 0.000 description 2
- 235000000604 Chrysanthemum parthenium Nutrition 0.000 description 2
- 241000005787 Cistanche Species 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 244000111489 Gardenia augusta Species 0.000 description 2
- 235000018958 Gardenia augusta Nutrition 0.000 description 2
- 235000001287 Guettarda speciosa Nutrition 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 2
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 2
- 241000830535 Ligustrum lucidum Species 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 2
- PVNIIMVLHYAWGP-UHFFFAOYSA-N Niacin Chemical compound OC(=O)C1=CC=CN=C1 PVNIIMVLHYAWGP-UHFFFAOYSA-N 0.000 description 2
- 235000019082 Osmanthus Nutrition 0.000 description 2
- 241000333181 Osmanthus Species 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- QNVSXXGDAPORNA-UHFFFAOYSA-N Resveratrol Natural products OC1=CC=CC(C=CC=2C=C(O)C(O)=CC=2)=C1 QNVSXXGDAPORNA-UHFFFAOYSA-N 0.000 description 2
- AUNGANRZJHBGPY-SCRDCRAPSA-N Riboflavin Chemical compound OC[C@@H](O)[C@@H](O)[C@@H](O)CN1C=2C=C(C)C(C)=CC=2N=C2C1=NC(=O)NC2=O AUNGANRZJHBGPY-SCRDCRAPSA-N 0.000 description 2
- 241000951473 Schizonepeta Species 0.000 description 2
- 240000004460 Tanacetum coccineum Species 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 2
- LUKBXSAWLPMMSZ-OWOJBTEDSA-N Trans-resveratrol Chemical compound C1=CC(O)=CC=C1\C=C\C1=CC(O)=CC(O)=C1 LUKBXSAWLPMMSZ-OWOJBTEDSA-N 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 239000003963 antioxidant agent Substances 0.000 description 2
- 230000003078 antioxidant effect Effects 0.000 description 2
- 235000006708 antioxidants Nutrition 0.000 description 2
- 229960001948 caffeine Drugs 0.000 description 2
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 2
- 150000001720 carbohydrates Chemical class 0.000 description 2
- 235000014633 carbohydrates Nutrition 0.000 description 2
- 235000008384 feverfew Nutrition 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 150000004676 glycans Chemical class 0.000 description 2
- CJWQYWQDLBZGPD-UHFFFAOYSA-N isoflavone Natural products C1=C(OC)C(OC)=CC(OC)=C1C1=COC2=C(C=CC(C)(C)O3)C3=C(OC)C=C2C1=O CJWQYWQDLBZGPD-UHFFFAOYSA-N 0.000 description 2
- 150000002515 isoflavone derivatives Chemical class 0.000 description 2
- 235000008696 isoflavones Nutrition 0.000 description 2
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 2
- 239000000787 lecithin Substances 0.000 description 2
- 229940067606 lecithin Drugs 0.000 description 2
- 235000010445 lecithin Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000011664 nicotinic acid Substances 0.000 description 2
- 229960003512 nicotinic acid Drugs 0.000 description 2
- 235000001968 nicotinic acid Nutrition 0.000 description 2
- 229920001282 polysaccharide Polymers 0.000 description 2
- 239000005017 polysaccharide Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 229940016667 resveratrol Drugs 0.000 description 2
- 235000021283 resveratrol Nutrition 0.000 description 2
- XOAAWQZATWQOTB-UHFFFAOYSA-N taurine Chemical compound NCCS(O)(=O)=O XOAAWQZATWQOTB-UHFFFAOYSA-N 0.000 description 2
- 150000003722 vitamin derivatives Chemical class 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- DWNBOPVKNPVNQG-LURJTMIESA-N (2s)-4-hydroxy-2-(propylamino)butanoic acid Chemical compound CCCN[C@H](C(O)=O)CCO DWNBOPVKNPVNQG-LURJTMIESA-N 0.000 description 1
- WRIDQFICGBMAFQ-UHFFFAOYSA-N (E)-8-Octadecenoic acid Natural products CCCCCCCCCC=CCCCCCCC(O)=O WRIDQFICGBMAFQ-UHFFFAOYSA-N 0.000 description 1
- BJEPYKJPYRNKOW-REOHCLBHSA-N (S)-malic acid Chemical compound OC(=O)[C@@H](O)CC(O)=O BJEPYKJPYRNKOW-REOHCLBHSA-N 0.000 description 1
- TUSDEZXZIZRFGC-UHFFFAOYSA-N 1-O-galloyl-3,6-(R)-HHDP-beta-D-glucose Natural products OC1C(O2)COC(=O)C3=CC(O)=C(O)C(O)=C3C3=C(O)C(O)=C(O)C=C3C(=O)OC1C(O)C2OC(=O)C1=CC(O)=C(O)C(O)=C1 TUSDEZXZIZRFGC-UHFFFAOYSA-N 0.000 description 1
- LQJBNNIYVWPHFW-UHFFFAOYSA-N 20:1omega9c fatty acid Natural products CCCCCCCCCCC=CCCCCCCCC(O)=O LQJBNNIYVWPHFW-UHFFFAOYSA-N 0.000 description 1
- QSBYPNXLFMSGKH-UHFFFAOYSA-N 9-Heptadecensaeure Natural products CCCCCCCC=CCCCCCCCC(O)=O QSBYPNXLFMSGKH-UHFFFAOYSA-N 0.000 description 1
- 241000271039 Agkistrodon Species 0.000 description 1
- 241000304531 Allium macrostemon Species 0.000 description 1
- 235000009051 Ambrosia paniculata var. peruviana Nutrition 0.000 description 1
- 239000004382 Amylase Substances 0.000 description 1
- 102000013142 Amylases Human genes 0.000 description 1
- 108010065511 Amylases Proteins 0.000 description 1
- 235000003130 Arctium lappa Nutrition 0.000 description 1
- 240000005528 Arctium lappa Species 0.000 description 1
- 235000003097 Artemisia absinthium Nutrition 0.000 description 1
- 240000001851 Artemisia dracunculus Species 0.000 description 1
- 235000017731 Artemisia dracunculus ssp. dracunculus Nutrition 0.000 description 1
- 235000003261 Artemisia vulgaris Nutrition 0.000 description 1
- 241000758794 Asarum Species 0.000 description 1
- 241000605422 Asparagus asparagoides Species 0.000 description 1
- 241000432824 Asparagus densiflorus Species 0.000 description 1
- 241001645380 Bassia scoparia Species 0.000 description 1
- 241000596154 Belamcanda Species 0.000 description 1
- 235000011274 Benincasa cerifera Nutrition 0.000 description 1
- 244000036905 Benincasa cerifera Species 0.000 description 1
- 241001313857 Bletilla striata Species 0.000 description 1
- 241000255791 Bombyx Species 0.000 description 1
- 241000717739 Boswellia sacra Species 0.000 description 1
- 241000345998 Calamus manan Species 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 235000008671 Calycanthus floridus Nutrition 0.000 description 1
- 244000025311 Calycanthus occidentalis Species 0.000 description 1
- 235000008670 Calycanthus occidentalis Nutrition 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- GHOKWGTUZJEAQD-UHFFFAOYSA-N Chick antidermatitis factor Natural products OCC(C)(C)C(O)C(=O)NCCC(O)=O GHOKWGTUZJEAQD-UHFFFAOYSA-N 0.000 description 1
- 244000037364 Cinnamomum aromaticum Species 0.000 description 1
- 235000014489 Cinnamomum aromaticum Nutrition 0.000 description 1
- 240000001579 Cirsium arvense Species 0.000 description 1
- 235000005918 Cirsium arvense Nutrition 0.000 description 1
- 240000004307 Citrus medica Species 0.000 description 1
- 241000601164 Clematis orientalis Species 0.000 description 1
- 241000756943 Codonopsis Species 0.000 description 1
- 240000007311 Commiphora myrrha Species 0.000 description 1
- 235000006965 Commiphora myrrha Nutrition 0.000 description 1
- 235000002991 Coptis groenlandica Nutrition 0.000 description 1
- 244000247747 Coptis groenlandica Species 0.000 description 1
- 241000218176 Corydalis Species 0.000 description 1
- 240000000774 Cunila origanoides Species 0.000 description 1
- 235000018274 Cunila origanoides Nutrition 0.000 description 1
- 235000014375 Curcuma Nutrition 0.000 description 1
- 244000164480 Curcuma aromatica Species 0.000 description 1
- 235000003405 Curcuma zedoaria Nutrition 0.000 description 1
- 240000009138 Curcuma zedoaria Species 0.000 description 1
- AUNGANRZJHBGPY-UHFFFAOYSA-N D-Lyxoflavin Natural products OCC(O)C(O)C(O)CN1C=2C=C(C)C(C)=CC=2N=C2C1=NC(=O)NC2=O AUNGANRZJHBGPY-UHFFFAOYSA-N 0.000 description 1
- FEWJPZIEWOKRBE-JCYAYHJZSA-N Dextrotartaric acid Chemical compound OC(=O)[C@H](O)[C@@H](O)C(O)=O FEWJPZIEWOKRBE-JCYAYHJZSA-N 0.000 description 1
- 235000014866 Dictamnus albus Nutrition 0.000 description 1
- 241000123589 Dipsacus Species 0.000 description 1
- 244000286838 Eclipta prostrata Species 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 241001465251 Ephedra sinica Species 0.000 description 1
- 239000001263 FEMA 3042 Substances 0.000 description 1
- 235000004204 Foeniculum vulgare Nutrition 0.000 description 1
- 240000006927 Foeniculum vulgare Species 0.000 description 1
- 239000004863 Frankincense Substances 0.000 description 1
- 229930091371 Fructose Natural products 0.000 description 1
- 239000005715 Fructose Substances 0.000 description 1
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 241000096284 Gynochthodes officinalis Species 0.000 description 1
- QUQPHWDTPGMPEX-UHFFFAOYSA-N Hesperidine Natural products C1=C(O)C(OC)=CC=C1C1OC2=CC(OC3C(C(O)C(O)C(COC4C(C(O)C(O)C(C)O4)O)O3)O)=CC(O)=C2C(=O)C1 QUQPHWDTPGMPEX-UHFFFAOYSA-N 0.000 description 1
- LEVWYRKDKASIDU-IMJSIDKUSA-N L-cystine Chemical compound [O-]C(=O)[C@@H]([NH3+])CSSC[C@H]([NH3+])C([O-])=O LEVWYRKDKASIDU-IMJSIDKUSA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- 235000004520 Lindera benzoin Nutrition 0.000 description 1
- 235000008262 Lindera benzoin var. benzoin Nutrition 0.000 description 1
- 240000003915 Lophatherum gracile Species 0.000 description 1
- 235000003956 Luffa Nutrition 0.000 description 1
- 244000050983 Luffa operculata Species 0.000 description 1
- 241000195947 Lycopodium Species 0.000 description 1
- 235000009421 Myristica fragrans Nutrition 0.000 description 1
- 244000270834 Myristica fragrans Species 0.000 description 1
- 235000007265 Myrrhis odorata Nutrition 0.000 description 1
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 1
- 241000123069 Ocyurus chrysurus Species 0.000 description 1
- 239000005642 Oleic acid Substances 0.000 description 1
- ZQPPMHVWECSIRJ-UHFFFAOYSA-N Oleic acid Natural products CCCCCCCCC=CCCCCCCCC(O)=O ZQPPMHVWECSIRJ-UHFFFAOYSA-N 0.000 description 1
- 240000002948 Ophiopogon intermedius Species 0.000 description 1
- 241000736199 Paeonia Species 0.000 description 1
- 235000006484 Paeonia officinalis Nutrition 0.000 description 1
- 235000003889 Paeonia suffruticosa Nutrition 0.000 description 1
- 240000005001 Paeonia suffruticosa Species 0.000 description 1
- LRBQNJMCXXYXIU-PPKXGCFTSA-N Penta-digallate-beta-D-glucose Natural products OC1=C(O)C(O)=CC(C(=O)OC=2C(=C(O)C=C(C=2)C(=O)OC[C@@H]2[C@H]([C@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)[C@@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)[C@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)O2)OC(=O)C=2C=C(OC(=O)C=3C=C(O)C(O)=C(O)C=3)C(O)=C(O)C=2)O)=C1 LRBQNJMCXXYXIU-PPKXGCFTSA-N 0.000 description 1
- 241000132171 Phryma leptostachya Species 0.000 description 1
- 241001522129 Pinellia Species 0.000 description 1
- 240000002924 Platycladus orientalis Species 0.000 description 1
- 240000004064 Poterium sanguisorba Species 0.000 description 1
- 235000008291 Poterium sanguisorba Nutrition 0.000 description 1
- 244000226566 Psoralea corylifolia Species 0.000 description 1
- 244000088415 Raphanus sativus Species 0.000 description 1
- 235000006140 Raphanus sativus var sativus Nutrition 0.000 description 1
- 241000405911 Rehmannia glutinosa Species 0.000 description 1
- 235000014220 Rhus chinensis Nutrition 0.000 description 1
- 240000003152 Rhus chinensis Species 0.000 description 1
- 235000008282 Sanguisorba officinalis Nutrition 0.000 description 1
- 235000008422 Schisandra chinensis Nutrition 0.000 description 1
- 240000006079 Schisandra chinensis Species 0.000 description 1
- 241000522620 Scorpio Species 0.000 description 1
- 229930182558 Sterol Natural products 0.000 description 1
- 241000779819 Syncarpia glomulifera Species 0.000 description 1
- FEWJPZIEWOKRBE-UHFFFAOYSA-N Tartaric acid Natural products [H+].[H+].[O-]C(=O)C(O)C(O)C([O-])=O FEWJPZIEWOKRBE-UHFFFAOYSA-N 0.000 description 1
- 240000006688 Telosma cordata Species 0.000 description 1
- 235000017352 Telosma cordata Nutrition 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 241001078983 Tetradium ruticarpum Species 0.000 description 1
- JZRWCGZRTZMZEH-UHFFFAOYSA-N Thiamine Natural products CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N JZRWCGZRTZMZEH-UHFFFAOYSA-N 0.000 description 1
- 235000008109 Thuja occidentalis Nutrition 0.000 description 1
- 240000003243 Thuja occidentalis Species 0.000 description 1
- 241000249864 Tussilago Species 0.000 description 1
- 244000178320 Vaccaria pyramidata Species 0.000 description 1
- 235000010587 Vaccaria pyramidata Nutrition 0.000 description 1
- 241001302463 Viola mandshurica Species 0.000 description 1
- 240000008866 Ziziphus nummularia Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 239000011149 active material Substances 0.000 description 1
- 229930013930 alkaloid Natural products 0.000 description 1
- 150000003797 alkaloid derivatives Chemical class 0.000 description 1
- ZOJBYZNEUISWFT-UHFFFAOYSA-N allyl isothiocyanate Chemical compound C=CCN=C=S ZOJBYZNEUISWFT-UHFFFAOYSA-N 0.000 description 1
- BJEPYKJPYRNKOW-UHFFFAOYSA-N alpha-hydroxysuccinic acid Natural products OC(=O)C(O)CC(O)=O BJEPYKJPYRNKOW-UHFFFAOYSA-N 0.000 description 1
- DTOSIQBPPRVQHS-PDBXOOCHSA-N alpha-linolenic acid Chemical compound CC\C=C/C\C=C/C\C=C/CCCCCCCC(O)=O DTOSIQBPPRVQHS-PDBXOOCHSA-N 0.000 description 1
- 235000020661 alpha-linolenic acid Nutrition 0.000 description 1
- 235000019418 amylase Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229930014669 anthocyanidin Natural products 0.000 description 1
- 235000008758 anthocyanidins Nutrition 0.000 description 1
- 239000001138 artemisia absinthium Substances 0.000 description 1
- 235000010323 ascorbic acid Nutrition 0.000 description 1
- 229960005070 ascorbic acid Drugs 0.000 description 1
- 239000011668 ascorbic acid Substances 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000021466 carotenoid Nutrition 0.000 description 1
- 239000001913 cellulose Substances 0.000 description 1
- 229920002678 cellulose Polymers 0.000 description 1
- 235000010980 cellulose Nutrition 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229930002875 chlorophyll Natural products 0.000 description 1
- 235000019804 chlorophyll Nutrition 0.000 description 1
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 1
- 229960001231 choline Drugs 0.000 description 1
- OEYIOHPDSNJKLS-UHFFFAOYSA-N choline Chemical compound C[N+](C)(C)CCO OEYIOHPDSNJKLS-UHFFFAOYSA-N 0.000 description 1
- 239000005515 coenzyme Substances 0.000 description 1
- 239000001812 curcuma zedoaria berg. rosc. Substances 0.000 description 1
- VFLDPWHFBUODDF-FCXRPNKRSA-N curcumin Chemical compound C1=C(O)C(OC)=CC(\C=C\C(=O)CC(=O)\C=C\C=2C=C(OC)C(O)=CC=2)=C1 VFLDPWHFBUODDF-FCXRPNKRSA-N 0.000 description 1
- 229960003067 cystine Drugs 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 239000006196 drop Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003038 endothelium Anatomy 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 229940050549 fiber Drugs 0.000 description 1
- 229930003935 flavonoid Natural products 0.000 description 1
- 235000017173 flavonoids Nutrition 0.000 description 1
- 150000002215 flavonoids Chemical class 0.000 description 1
- 229960000304 folic acid Drugs 0.000 description 1
- 235000019152 folic acid Nutrition 0.000 description 1
- 239000011724 folic acid Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 239000010440 gypsum Substances 0.000 description 1
- 229910052602 gypsum Inorganic materials 0.000 description 1
- QUQPHWDTPGMPEX-QJBIFVCTSA-N hesperidin Chemical compound C1=C(O)C(OC)=CC=C1[C@H]1OC2=CC(O[C@H]3[C@@H]([C@@H](O)[C@H](O)[C@@H](CO[C@H]4[C@@H]([C@H](O)[C@@H](O)[C@H](C)O4)O)O3)O)=CC(O)=C2C(=O)C1 QUQPHWDTPGMPEX-QJBIFVCTSA-N 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- QXJSBBXBKPUZAA-UHFFFAOYSA-N isooleic acid Natural products CCCCCCCC=CCCCCCCCCC(O)=O QXJSBBXBKPUZAA-UHFFFAOYSA-N 0.000 description 1
- 239000004310 lactic acid Substances 0.000 description 1
- 235000014655 lactic acid Nutrition 0.000 description 1
- 229960004488 linolenic acid Drugs 0.000 description 1
- KQQKGWQCNNTQJW-UHFFFAOYSA-N linolenic acid Natural products CC=CCCC=CCC=CCCCCCCCC(O)=O KQQKGWQCNNTQJW-UHFFFAOYSA-N 0.000 description 1
- 235000012680 lutein Nutrition 0.000 description 1
- 229960005375 lutein Drugs 0.000 description 1
- 239000001656 lutein Substances 0.000 description 1
- KBPHJBAIARWVSC-RGZFRNHPSA-N lutein Chemical compound C([C@H](O)CC=1C)C(C)(C)C=1\C=C\C(\C)=C\C=C\C(\C)=C\C=C\C=C(/C)\C=C\C=C(/C)\C=C\[C@H]1C(C)=C[C@H](O)CC1(C)C KBPHJBAIARWVSC-RGZFRNHPSA-N 0.000 description 1
- ORAKUVXRZWMARG-WZLJTJAWSA-N lutein Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C1=C(C)CCCC1(C)C)C=CC=C(/C)C=CC2C(=CC(O)CC2(C)C)C ORAKUVXRZWMARG-WZLJTJAWSA-N 0.000 description 1
- 235000018977 lysine Nutrition 0.000 description 1
- 239000001630 malic acid Substances 0.000 description 1
- 235000011090 malic acid Nutrition 0.000 description 1
- 240000004308 marijuana Species 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000008164 mustard oil Substances 0.000 description 1
- 235000013557 nattō Nutrition 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 239000001702 nutmeg Substances 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- ZQPPMHVWECSIRJ-KTKRTIGZSA-N oleic acid Chemical compound CCCCCCCC\C=C/CCCCCCCC(O)=O ZQPPMHVWECSIRJ-KTKRTIGZSA-N 0.000 description 1
- 150000007524 organic acids Chemical class 0.000 description 1
- 210000004681 ovum Anatomy 0.000 description 1
- 239000011713 pantothenic acid Substances 0.000 description 1
- 229940055726 pantothenic acid Drugs 0.000 description 1
- 235000019161 pantothenic acid Nutrition 0.000 description 1
- 235000010987 pectin Nutrition 0.000 description 1
- 239000001814 pectin Substances 0.000 description 1
- 229920001277 pectin Polymers 0.000 description 1
- 229960000292 pectin Drugs 0.000 description 1
- 239000001739 pinus spp. Substances 0.000 description 1
- 210000002826 placenta Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 235000019192 riboflavin Nutrition 0.000 description 1
- 239000002151 riboflavin Substances 0.000 description 1
- 229960002477 riboflavin Drugs 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000009490 scorpio Substances 0.000 description 1
- 150000003432 sterols Chemical class 0.000 description 1
- 235000003702 sterols Nutrition 0.000 description 1
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000000454 talc Substances 0.000 description 1
- 229910052623 talc Inorganic materials 0.000 description 1
- 235000012222 talc Nutrition 0.000 description 1
- 235000015523 tannic acid Nutrition 0.000 description 1
- 229920002258 tannic acid Polymers 0.000 description 1
- LRBQNJMCXXYXIU-NRMVVENXSA-N tannic acid Chemical compound OC1=C(O)C(O)=CC(C(=O)OC=2C(=C(O)C=C(C=2)C(=O)OC[C@@H]2[C@H]([C@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)[C@@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)[C@@H](OC(=O)C=3C=C(OC(=O)C=4C=C(O)C(O)=C(O)C=4)C(O)=C(O)C=3)O2)OC(=O)C=2C=C(OC(=O)C=3C=C(O)C(O)=C(O)C=3)C(O)=C(O)C=2)O)=C1 LRBQNJMCXXYXIU-NRMVVENXSA-N 0.000 description 1
- 229940033123 tannic acid Drugs 0.000 description 1
- 239000011975 tartaric acid Substances 0.000 description 1
- 235000002906 tartaric acid Nutrition 0.000 description 1
- 229960001367 tartaric acid Drugs 0.000 description 1
- 229960003080 taurine Drugs 0.000 description 1
- 235000013616 tea Nutrition 0.000 description 1
- 239000004577 thatch Substances 0.000 description 1
- 235000019157 thiamine Nutrition 0.000 description 1
- KYMBYSLLVAOCFI-UHFFFAOYSA-N thiamine Chemical compound CC1=C(CCO)SCN1CC1=CN=C(C)N=C1N KYMBYSLLVAOCFI-UHFFFAOYSA-N 0.000 description 1
- 229960003495 thiamine Drugs 0.000 description 1
- 239000011721 thiamine Substances 0.000 description 1
- KBPHJBAIARWVSC-XQIHNALSSA-N trans-lutein Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C1=C(C)CC(O)CC1(C)C)C=CC=C(/C)C=CC2C(=CC(O)CC2(C)C)C KBPHJBAIARWVSC-XQIHNALSSA-N 0.000 description 1
- 229940036248 turpentine Drugs 0.000 description 1
- 235000019509 white turmeric Nutrition 0.000 description 1
- FJHBOVDFOQMZRV-XQIHNALSSA-N xanthophyll Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C1=C(C)CC(O)CC1(C)C)C=CC=C(/C)C=CC2C=C(C)C(O)CC2(C)C FJHBOVDFOQMZRV-XQIHNALSSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种用于医学检索的检索词扩展方法、装置及存储介质,所述方法包括:获取若干个初始检索词;分别计算与所述若干个初始检索词向量最相近的新单词;构建一向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词;计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比;获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。使用本发明的方法、装置及存储介质可以实现使用者输入任何一个医学名称,扩展出众多相同或相关联的医学名称,从而更方便、全面的进行医学检索。
Description
技术领域
本发明涉及医学检索领域,具体地,涉及一种用于医学检索的检索词扩展方法、装置及存储介质。
背景技术
在互联网上进行医学文献或医学资料的检索时,因为医学词汇比较专业,一般人不太容易掌握,即使是专业的医生,他们对于一个技术可能也就只知道一种名称,是否还有其他名称也不一定了解;同时,在进行医学检索时,为了得到更全面的检索结果,往往需要一一列举出一个医学名称的相同或相关联的其他名称,也需要花费较多的时间。
因此需要一种方法,可以实现使用者输入任何一个医学名称,扩展出众多相同或相关联的医学名称,从而可以更方便、全面的进行医学检索。
经检索,申请号为201610383323.2的中国发明申请,其公开了一种数据处理方法及装置,方法包括:从目标数据库中获取包含医学统计学方法的文献作为目标数据源;从目标数据源中获取目标词和目标词的扩展词,目标词的扩展词为与目标词具有相同语义或关联关系的词;将从目标数据源中获取的词构建语义词库;通过语义分析将语义词库中的词进行归类,并将归类后的词存储至存储单元,每个分类中的词具有相同语义或关联关系;当接收到用户通过检索界面输入的检索词时,基于存储单元中存储的词从目标数据源中获取与检索词对应的目标文献并输出。
上述专利提及“目标词的扩展词为与目标词具有相同语义或关联关系的词”,但没有说明如何能够方便、全面而准确得到扩展词。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种用于医学检索的检索词扩展方法及装置,可以方便、全面而准确地对医学检索的检索词进行扩展。
根据本发明的一个方面,提供一种用于医学检索的检索词扩展方法,包括以下步骤:
获取若干个初始检索词;
分别计算与所述若干个初始检索词向量最相近的新单词;
以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词;
计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比;
获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
优选地,在分别计算与所述若干个初始检索词向量最相近的新单词之前,预先获得每个单词的向量表示。
优选地,所述获得每个单词的向量表示的方法为词嵌入向量算法。
优选地,所述获得每个单词的词向量的方法包括以下步骤:
选定一个相关领域,并选定所述相关领域的若干个相关性文献以及若干个搜索词;
选取文献库;
对所述文献库使用词嵌入向量算法,得到文献库中目标单词的向量表示。
优选地,计算所有所述新单词的得分的方法为若所述新单词与任一所述初始检索词有一条相连的线,则加一分。
优选地,在获得扩展词库后,判断是否需要进行下一次迭代,
若是,则将所述扩展词库作为所述初始检索词,进行下一次迭代;
若否,则结束。
根据本发明的一个方面,提供一种用于医学检索的检索词扩展装置,包括:
获取单元,用于获取若干个初始检索词;
第一计算单元,与所述获取单元相连,用于分别计算与所述若干个初始检索词向量最相近的新单词;
向量空间构建单元,与所述第一计算单元相连,用于以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词;
第二计算单元,与所述向量空间构建单元相连,用于计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比;
筛选单元,与所述第二计算单元相连,用于筛选所述新单词,获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
优选地,还包括预处理单元,与所述第一计算单元相连,用于预先获得每个单词的向量表示。
优选地,还包括迭代单元,与所述筛选单元、获取单元分别相连,用于判断是否需要进行下一次迭代;若是,则将所述扩展词库作为所述初始检索词,继续进行下一次迭代;若否,则结束。
根据本发明的一个方法,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
使用本发明的方法、装置及存储介质可以通过对输入的初始检索词(医学名称)进行扩展,得到所有与其相同或相关联的医学名称,从而可以得到更全面而准确的检索结果,避免产生遗漏检索结果的情况;同时可以节省使用者输入全部检索词的时间,方便实用。
进一步的,因为医学用词是不断在发展的,使用本发明的方法、装置及存储介质,可以适应不断发展的医学词库。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了本发明一实施例的用于医学检索的检索词扩展方法的流程图;
图2示出了本发明另一实施例的用于医学检索的检索词扩展方法的流程图;
图3示出了本发明一实施例的预先获得每个单词的向量表示的方法的流程图;
图4示出了本发明又一实施例的用于医学检索的检索词扩展方法的流程图;
图5示出了本发明一实施例的用于医学检索的检索词扩展装置的示意图;
图6示出了本发明另一实施例的用于医学检索的检索词扩展装置的示意图;
图7示出了本发明又一实施例的用于医学检索的检索词扩展装置的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1示出了本发明的一个实施例的用于医学检索的检索词扩展方法的流程图,如图1所示,所述用于医学检索的检索词扩展方法至少包括步骤S01至步骤S05,详细介绍如下:
执行步骤S01,获取若干个初始检索词;
在本发明的一个实施例中,所述初始检索词是医学名称,其可以包含多个单词,例如:黄酮、番茄红素、营养元素等;所述初始检索词的数量大于等于2。
在本发明的一个实施例中,所述初始检索词可以是人工输入获取的,人工输入的查询语可以是通过键盘、触摸屏等输入设备输入的,也可以是通过语音等其他方式输入的。所述初始检索词也可以是通过除人工输入之外的其他方式获取的,例如通过其他算法获取。
执行步骤S02,分别计算与所述若干个初始检索词向量最相近的新单词。
在本发明的一个实施例中,在分别计算与所述若干个初始检索词向量最相近的新单词之前,预先获得每个单词的向量表示。
图2示出了本发明另一实施例的用于医学检索的检索词扩展方法的流程图,如图2所示,在步骤S01之前,首先执行步骤S00,预先获得每个单词的向量表示。
所述获得每个单词的向量表示的方法可以是使用词嵌入向量(word embedding)算法计算获得每个单词的向量表示。
词嵌入向量(word embedding)技术是NLP(自然语言处理)里面一个重要的概念,可以利用词嵌入向量(word embedding)技术将一个单词转换成固定长度的向量表示,从而便于进行数学处理。
通过本实施例的步骤S00得到每个单词的向量表示,即可以计算得到步骤S02中和所述初始检索词向量最相近的新单词。
图3示出了本发明一实施例的预先获得每个单词的向量表示的方法的流程图,如图3所示,在本实施例中,所述步骤S00至少具体包括以下步骤:
执行步骤S001,选定一个相关领域,并选定所述相关领域的若干个相关性文献以及若干个搜索词。
在本发明的一个实施例中,所述相关领域可以是心肌病、深度学习算法或文字定位算法等等。
在本发明的一个实施例中,所述选定所述相关领域的若干个相关性文献以及若干个搜索词可以是通过人工选定,也可以通过其他方式选定。
执行步骤S002,选取文献库。
在本发明的一个实施例中,为了获得更好的效果,选取尽量多的文献库。所述文献库不仅包括相关领域,也可以包括其他领域。所述文献库可以从目前的开源数据集中获取,也可以通过其他方式获取。
执行步骤S003,对所述文献库使用词嵌入向量(word embedding)算法,得到文献库中目标单词的向量表示。
由于所述词嵌入向量(word embedding)技术属于现有技术,因此这里不再具体说明。
通过本发明一实施例的步骤S001至S003的方法可以得到每个单词的向量表示,由此可以执行步骤S02,计算与所述若干个初始检索词向量最相近的新单词。
需要注意的是,本发明并不限定步骤S00的执行顺序,在本发明的另外一些实施例中,也可以在执行完步骤S01后再执行步骤S00。
执行步骤S03,以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词。
执行步骤S04,计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比。
在本发明的一个实施例中,若所述新单词与任一所述初始检索词有一条相连的线,则加一分,最终可以得到所有所述新单词的得分。
执行步骤S05,获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
在本发明的一个实施例中,在第一次构建搜索关键词的时候,让人工专家参与判断新单词是否属于扩展词库(即是否和初始检索词相关),根据人工专家的判断,可以得到最优切割方法,由此可以得到预设阈值。
在本发明的其他实施例中,也可以通过其他方式获得预设阈值,比如让使用者在使用时进行选择。例如:在使用者需要更全面更多的扩展词库时,可以在使用时调低预设阈值;在使用者需要更少但更准确的扩展词库时,可以在使用时调高阈值阈值。
通过本发明一实施例的方法,可以对所述新单词进行筛选,筛选出新单词中与所述初始检索词较为相关的部分。高于所述预设阈值的新单词就是我们需要的与所述初始检索词相关的扩展词库,低于所述预设阈值的新单词就是与所述初始检索词不太相关的。
图4示出了本发明的又一实施例的用于医学检索的检索词扩展方法的流程图,如图4所示,本发明另一实施例的方法至少包括以下步骤:
其中步骤S01至S05与上文所述的相同,在执行完步骤S05之后,执行步骤S06,判断是否需要进行下一次迭代。
若是,则将所述扩展词库作为所述初始检索词,继续执行步骤S01,进行下一次迭代。
若否,则结束。
在本发明的一实施例中,所述判断是否需要进行下一次迭代可以是由使用者在获得扩展词库后进行判断,也可以预先设定迭代次数或其他结束迭代的条件。
通过迭代的过程,可以得到更多的扩展词库,在此过程中,人工专家也可以参与,不断地优化所述预设阈值。
图5示出了本发明一实施例的用于医学检索的检索词扩展装置100的示意图,如图5所示,所述用于医学检索的检索词扩展装置100至少包括:
获取单元01,用于获取若干个初始检索词。
在本发明的一实施例中,所述获取单元可以是包括但不限于键盘、鼠标、电子指示笔或触摸屏等计算机输入设备。
第一计算单元02,与所述获取单元01相连,用于分别计算与所述若干个初始检索词向量最相近的新单词。
向量空间构建单元03,与所述第一计算单元02相连,用于以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词。
第二计算单元04,与所述向量空间构建单元03相连,用于计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比。
在本发明的一个实施例中,所述第二计算单元04用于计算所有所述新单词的得分,若所述新单词与任一所述初始检索词有一条相连的线,则加一分,最终可以得到所有所述新单词的得分。
筛选单元05,与所述第二计算单元04相连,用于筛选所述新单词,获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
在本发明的一个实施例中,在第一次构建搜索关键词的时候,让人工专家参与判断新单词是否属于扩展词库(即是否和初始检索词相关),根据人工专家的判断,可以得到最优切割方法,由此可以得到预设阈值。也可以通过其他方式获得预设阈值,比如让使用者在使用时进行选择:在使用者需要更全面更多的扩展词库时,可以在使用时调低预设阈值;在使用者需要更少但更准确的扩展词库时,可以在使用时调高阈值。
图6示出了本发明又一实施例的用于医学检索的检索词扩展装置的示意图,如图6所示,所述装置还包括预处理单元00,所述预处理单元00与所述第一计算单元02相连,用于预先获得每个单词的向量表示。
在本发明的一个实施例中,所述预处理单元00使用词嵌入向量(word embedding)算法获得每个单词的向量表示。
图7示出了本发明另一实施例的用于医学检索的检索词扩展装置的示意图,如图7所示,所述装置还包括迭代单元06,所述迭代单元06与所述筛选单元04、获取单元01分别相连,用于判断是否需要进行下一次迭代;若是,则将所述扩展词库作为所述初始检索词,继续进行下一次迭代;若否,则结束。
在本发明的一实施例中,所述判断是否需要进行下一次迭代可以是由使用者在获得扩展词库后进行判断,也可以预先设定迭代次数或结束迭代的条件。
应当注意,尽管在上文中详细描述中提及了用于动作执行的装置的若干单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入所述装置中。所述计算机可读介质承载有一个或者多个程序,当所述一个或者多个程序被一个被处理器执行时,实现上述实施例中所述的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
下面以三个案例说明使用上述实施例的用于医学检索的检索词扩展方法和装置对初始检索词进行扩展后得到的扩展词库:
案例1
初始搜索词是:黄酮、西红柿红素、营养元素、磷脂、营养素、含量低、微量元素、纤维素、氨基酸、茶多酚、赖氨酸、白藜芦醇、活性酶、有机酸、卵磷脂、水溶性、蛋白质、多糖、补充剂。
通过本发明一实施例的方法对初始搜索词进行扩展,得到如下的扩展词库:
西红柿红素、胡萝卜素、硫胺素、摄取、多糖、苹果酸、黄酮、磷脂、维生素、异黄酮、活性物质、叶绿素、辅酶、富含、谷维素、叶黄素、组氨酸、欧米伽、胆碱、亚麻酸、富含铁、芦丁、橙皮甙、活性酶、甾醇、氨基酸、油酸、b6、b1、b2、b3、咖啡碱、歧化酶、无机盐、黄酮类、钙质、抗坏血酸、b6、泛酸、果酸、纤维、白藜芦醇、牛磺酸、果胶、维生素类、咖啡因、可溶性、黄酮类物质、碳水化合物、亚油酸、花青素、乳酸、淀粉酶、茶茶多酚、类胡萝卜素脂类、果糖、色氨酸、赖氨酸、芥子油、矿物质、必需、植物性、叶酸、宏量、纳豆中、酵素、补充剂、鞣酸、大豆异黄酮、营养、核黄素、纤维素、生物碱、400iu、糖类、多酚、胱氨酸、硫氰酸盐、抗氧化剂、有机酸、滴剂、葡萄糖、烟酸、补充、b1:、dha、b12、卵卵磷脂、蛋白质、微量量元素、尼克酸、含有、不饱和、营养元素、水溶性、营养素、维他命、含量低、抗氧化、脂肪酸。
案例二
初始搜索词是:赛诺菲、azn、施贵宝、amgen、百时、regeneron、礼来、002198。
通过本发明一实施例的方法对初始搜索词进行扩展,得到如下的扩展词库:
赛诺菲、诺华、勃林格、诺和诺德、罗氏、阿斯利利、辉瑞、默沙东、拜尔、regeneron、礼来、shire、辉瑞公司、美敦力。
案例三
初始搜索词是:玉竹、白芷、甘草、白菊花、女贞子、荆芥、干姜、当归、升麻、党参、小茴香、栀子、赤芍、泽泻、桔梗、白术、川芎、麦冬、砂仁。
通过本发明一实施例的方法对初始搜索词进行扩展,得到如下的扩展词库:
五倍子、乳香、12g、苍术、艾叶、菟丝子、地榆、川乌、白术、伸筋草、紫花地丁、续断、山萸、桑枝、熟地、干姜、鳖甲、桑寄生、仙灵、柴胡、乌枣、生石膏、桑白皮、18克、玄参、秦艽、怀牛膝、半夏、决明、王不留行、龟板、延胡索、当归、松节、生地黄、黄柏、牛蒡子、白菊花、官桂、乌药、黄连、天花粉、芦根、石菖蒲、羌活、附子、透骨草、玉竹、牡丹皮、枳壳、丹参、六一散、半枝莲、淡竹叶、甘遂、苁蓉、牛膝、威灵仙、巴戟天、没药、白花蛇、川芎、麦门冬、茨实、海风藤、吴茱萸、胡桃肉、火麻仁、草豆蔻、款冬花、苦参、柏子仁、侧柏、独活、熟地黄、女贞子、僵蚕、芍药、韭菜子、鸡血藤、茵陈、木鳖子、茜草、雨前茶、白茅根、地肤、香薷、砂仁、土茯苓、细辛、桑椹子、泽泻、栀子、莪术、木通、桔梗、地丁、全蝎、厚朴、射干、五味子、白芷、肉苁蓉、莱菔子、桂心、竹茹、薤白、补骨脂、天冬、五灵脂、白芨、知母、云苓、赤芍、桑皮、白鲜、高良姜、升麻、肉豆蔻、小蓟、紫河车、麻黄、荆芥、连翘、鸡内金、滑石、太子参、枳实、丹皮、金钱草、郁金、蛇床子、桂枝、冬瓜子、麦冬、山茱萸、青木香、黄芩、旱莲草、车前子、黄精、薏仁米、五加皮、丝瓜络。
通过以上的案例,可以看到,本发明实施例的方法和装置相比现有技术具有如下优点:
通常使用者对于相关的医学名称不够了解,对于一样东西只知道一种名称,而不了解是否还有其他名称,即使是医学专家也不会知道所有名称,检索中很容易造成漏检。使用本发明实施例的方法可以通过对输入的初始检索词(医学名称)进行扩展,得到所有与其相同或相关联的医学名称,从而可以得到更全面的检索结果,避免产生遗漏检索结果的情况。
在现有技术中,使用者为了得到更准确、全面的检索结果,需要列举出一个医学名称的相同或相关联的其他名称作为检索词,花费时间较多,使用体验也较差。而使用本发明实施例的方法使用者只需要输入部分检索词,就可以扩展得到更多的检索词,这就可以节省使用者输入检索词的时间,方便使用。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种用于医学检索的检索词扩展方法,其特征在于,包括:
获取若干个初始检索词;
分别计算与所述若干个初始检索词向量最相近的新单词;
以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词;
计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比;
获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
2.根据权利要求1所述的方法,其特征在于,在分别计算与所述若干个初始检索词向量最相近的新单词之前,预先获得每个单词的向量表示。
3.根据权利要求2所述的方法,其特征在于,所述获得每个单词的向量表示的方法为词嵌入向量算法。
4.根据权利要求3所述的方法,其特征在于,所述获得每个单词的词向量的方法包括:
选定一个相关领域,并选定所述相关领域的若干个相关性文献以及若干个搜索词;
选取文献库;
对所述文献库使用词嵌入向量算法,得到所述文献库中目标单词的向量表示。
5.根据权利要求1所述的方法,其特征在于,计算所有所述新单词的得分的方法为若所述新单词与任一所述初始检索词有一条相连的线,则加一分。
6.根据权利要求1所述的方法,其特征在于,在获得扩展词库后,判断是否需要进行下一次迭代,
若是,则将所述扩展词库作为所述初始检索词,进行下一次迭代;
若否,则结束。
7.一种用于医学检索的检索词扩展装置,其特征在于,包括:
获取单元,用于获取若干个初始检索词;
第一计算单元,与所述获取单元相连,用于分别计算与所述若干个初始检索词向量最相近的新单词;
向量空间构建单元,与所述第一计算单元相连,用于以所述若干个初始检索词和所有所述新单词构建一个向量空间,所述向量空间包括所述若干个初始检索词和所有所述新单词,用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词;
第二计算单元,与所述向量空间构建单元相连,用于计算所有所述新单词的得分,所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比;
筛选单元,与所述第二计算单元相连,用于筛选所述新单词,获得扩展词库,所述扩展词库为所述新单词中得分高于预设阈值的部分。
8.根据权利要求7所述的装置,其特征在于,还包括预处理单元,与所述第一计算单元相连,用于预先获得每个单词的向量表示。
9.根据权利要求7所述的装置,其特征在于,还包括迭代单元,与所述筛选单元、获取单元分别相连,用于判断是否需要进行下一次迭代;若是,则将所述扩展词库作为所述初始检索词,继续进行下一次迭代;若否,则结束。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910742880.2A CN110489526A (zh) | 2019-08-13 | 2019-08-13 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910742880.2A CN110489526A (zh) | 2019-08-13 | 2019-08-13 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110489526A true CN110489526A (zh) | 2019-11-22 |
Family
ID=68550679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910742880.2A Pending CN110489526A (zh) | 2019-08-13 | 2019-08-13 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489526A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201966A (zh) * | 2021-11-11 | 2022-03-18 | 上海天天基金销售有限公司 | 一种用于确定关联词的方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203289A (ja) * | 1998-01-16 | 1999-07-30 | Fuji Xerox Co Ltd | 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN103761263A (zh) * | 2013-12-31 | 2014-04-30 | 武汉传神信息技术有限公司 | 向用户推荐信息的方法 |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN105653660A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种检索关键字的联想方法及装置 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109214004A (zh) * | 2018-09-06 | 2019-01-15 | 广州知弘科技有限公司 | 基于机器学习的大数据处理方法 |
CN109344400A (zh) * | 2018-09-18 | 2019-02-15 | 江苏润桐数据服务有限公司 | 一种文献入库的判断方法和装置 |
-
2019
- 2019-08-13 CN CN201910742880.2A patent/CN110489526A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203289A (ja) * | 1998-01-16 | 1999-07-30 | Fuji Xerox Co Ltd | 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN103761263A (zh) * | 2013-12-31 | 2014-04-30 | 武汉传神信息技术有限公司 | 向用户推荐信息的方法 |
CN105653660A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种检索关键字的联想方法及装置 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109214004A (zh) * | 2018-09-06 | 2019-01-15 | 广州知弘科技有限公司 | 基于机器学习的大数据处理方法 |
CN109344400A (zh) * | 2018-09-18 | 2019-02-15 | 江苏润桐数据服务有限公司 | 一种文献入库的判断方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201966A (zh) * | 2021-11-11 | 2022-03-18 | 上海天天基金销售有限公司 | 一种用于确定关联词的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110289106B (zh) | 一种从中药复方中分析功效对应中药及其药性配伍关系的方法 | |
Jiang et al. | Using link topic model to analyze traditional Chinese medicine clinical symptom-herb regularities | |
CN105181916A (zh) | 一种利用电子鼻、电子舌传感器技术检测量化中药气味及其对应证的方法 | |
CN110489526A (zh) | 一种用于医学检索的检索词扩展方法、装置及存储介质 | |
CN103289873A (zh) | 一种养生保健酒及其制备方法 | |
Kim et al. | Morphological characteristics and phylogenetic analysis of Polygonatum species based on chloroplast DNA sequences | |
Jun et al. | Media involvement on appearance evaluation, appearance stress, and appearance management behavior | |
CN103564100A (zh) | 养血提气祛斑美容方法及配方 | |
CN102988608A (zh) | 一种治疗斑秃的中药组合物 | |
Li et al. | An analysis and research of type-2 diabetes TCM records based on text mining | |
CN104268656B (zh) | 评价同一生物功能的多种中药材对该生物功能的协同性和作用度的方法及优化中药复方方法 | |
CN209662449U (zh) | 磁灸理疗装置 | |
CN105148047A (zh) | 一种治疗乳汁不下的中药汤剂 | |
Sun et al. | A Multi-dimensional Data Mining-based Study on the Prescriptions Developed by Professor Xu Zhiyin in Treating Thyroid Nodules | |
Yea et al. | Comparative analysis of web search trends between experts and public for medicinal herbs in Korea | |
Zhang et al. | Construction and Application of Prescription Knowledge Graph Based on Deep Learning | |
Hamid et al. | i-Herbs: An Expert System for Malaysian Herbs Identification Using Production Rules Approach | |
CN105901724A (zh) | 一种提高中小学生记忆能力的南极磷虾油保健胶囊 | |
Wu et al. | A study of TCM master Yan Zhenghua's medication rule in prescriptions for digestive system diseases based on Apriori and complex system entropy cluster | |
CN112402538A (zh) | 一种从中药中提取干预骨重建药效物质的方法 | |
Cheng et al. | A Support Vector Machine Learning for the Upward and Downward Tendency Theory of Traditional Chinese Medicine | |
Quoc et al. | VNPlant-200–A Public and Large-Scale | |
Hendrawan et al. | Classification of Rhizomes Using Pre-trained Convolutional Neural Network Method | |
Choi et al. | Generating Label Word Set based on Maximal Marginal Relevance for Few-shot Name Entity Recognition | |
유효정 | Comparison of the kinematics, repeatability, and reproducibility of five different multi-segment foot models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191122 |