CN110489526A

CN110489526A - 一种用于医学检索的检索词扩展方法、装置及存储介质

Info

Publication number: CN110489526A
Application number: CN201910742880.2A
Authority: CN
Inventors: 肖婷婷; 陈凯; 周异; 侯翠兰; 谢利剑; 徐萌
Original assignee: Shanghai City Children Hospital
Current assignee: Shanghai City Children Hospital
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-22

Abstract

本发明提供一种用于医学检索的检索词扩展方法、装置及存储介质，所述方法包括：获取若干个初始检索词；分别计算与所述若干个初始检索词向量最相近的新单词；构建一向量空间，所述向量空间包括所述若干个初始检索词和所有所述新单词，用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词；计算所有所述新单词的得分，所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比；获得扩展词库，所述扩展词库为所述新单词中得分高于预设阈值的部分。使用本发明的方法、装置及存储介质可以实现使用者输入任何一个医学名称，扩展出众多相同或相关联的医学名称，从而更方便、全面的进行医学检索。

Description

一种用于医学检索的检索词扩展方法、装置及存储介质

技术领域

本发明涉及医学检索领域，具体地，涉及一种用于医学检索的检索词扩展方法、装置及存储介质。

背景技术

在互联网上进行医学文献或医学资料的检索时，因为医学词汇比较专业，一般人不太容易掌握，即使是专业的医生，他们对于一个技术可能也就只知道一种名称，是否还有其他名称也不一定了解；同时，在进行医学检索时，为了得到更全面的检索结果，往往需要一一列举出一个医学名称的相同或相关联的其他名称，也需要花费较多的时间。

因此需要一种方法，可以实现使用者输入任何一个医学名称，扩展出众多相同或相关联的医学名称，从而可以更方便、全面的进行医学检索。

经检索，申请号为201610383323.2的中国发明申请，其公开了一种数据处理方法及装置，方法包括：从目标数据库中获取包含医学统计学方法的文献作为目标数据源；从目标数据源中获取目标词和目标词的扩展词，目标词的扩展词为与目标词具有相同语义或关联关系的词；将从目标数据源中获取的词构建语义词库；通过语义分析将语义词库中的词进行归类，并将归类后的词存储至存储单元，每个分类中的词具有相同语义或关联关系；当接收到用户通过检索界面输入的检索词时，基于存储单元中存储的词从目标数据源中获取与检索词对应的目标文献并输出。

上述专利提及“目标词的扩展词为与目标词具有相同语义或关联关系的词”，但没有说明如何能够方便、全面而准确得到扩展词。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种用于医学检索的检索词扩展方法及装置，可以方便、全面而准确地对医学检索的检索词进行扩展。

根据本发明的一个方面，提供一种用于医学检索的检索词扩展方法，包括以下步骤：

获取若干个初始检索词；

分别计算与所述若干个初始检索词向量最相近的新单词；

以所述若干个初始检索词和所有所述新单词构建一个向量空间，所述向量空间包括所述若干个初始检索词和所有所述新单词，用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词；

计算所有所述新单词的得分，所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比；

获得扩展词库，所述扩展词库为所述新单词中得分高于预设阈值的部分。

优选地，在分别计算与所述若干个初始检索词向量最相近的新单词之前，预先获得每个单词的向量表示。

优选地，所述获得每个单词的向量表示的方法为词嵌入向量算法。

优选地，所述获得每个单词的词向量的方法包括以下步骤：

选定一个相关领域，并选定所述相关领域的若干个相关性文献以及若干个搜索词；

选取文献库；

对所述文献库使用词嵌入向量算法，得到文献库中目标单词的向量表示。

优选地，计算所有所述新单词的得分的方法为若所述新单词与任一所述初始检索词有一条相连的线，则加一分。

优选地，在获得扩展词库后，判断是否需要进行下一次迭代，

若是，则将所述扩展词库作为所述初始检索词，进行下一次迭代；

若否，则结束。

根据本发明的一个方面，提供一种用于医学检索的检索词扩展装置，包括：

获取单元，用于获取若干个初始检索词；

第一计算单元，与所述获取单元相连,用于分别计算与所述若干个初始检索词向量最相近的新单词；

向量空间构建单元，与所述第一计算单元相连,用于以所述若干个初始检索词和所有所述新单词构建一个向量空间，所述向量空间包括所述若干个初始检索词和所有所述新单词，用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词；

第二计算单元,与所述向量空间构建单元相连，用于计算所有所述新单词的得分，所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比；

筛选单元,与所述第二计算单元相连，用于筛选所述新单词，获得扩展词库，所述扩展词库为所述新单词中得分高于预设阈值的部分。

优选地，还包括预处理单元，与所述第一计算单元相连，用于预先获得每个单词的向量表示。

优选地，还包括迭代单元，与所述筛选单元、获取单元分别相连，用于判断是否需要进行下一次迭代；若是，则将所述扩展词库作为所述初始检索词，继续进行下一次迭代；若否，则结束。

根据本发明的一个方法，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

使用本发明的方法、装置及存储介质可以通过对输入的初始检索词(医学名称)进行扩展，得到所有与其相同或相关联的医学名称，从而可以得到更全面而准确的检索结果，避免产生遗漏检索结果的情况；同时可以节省使用者输入全部检索词的时间，方便实用。

进一步的，因为医学用词是不断在发展的，使用本发明的方法、装置及存储介质，可以适应不断发展的医学词库。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明一实施例的用于医学检索的检索词扩展方法的流程图；

图2示出了本发明另一实施例的用于医学检索的检索词扩展方法的流程图；

图3示出了本发明一实施例的预先获得每个单词的向量表示的方法的流程图；

图4示出了本发明又一实施例的用于医学检索的检索词扩展方法的流程图；

图5示出了本发明一实施例的用于医学检索的检索词扩展装置的示意图；

图6示出了本发明另一实施例的用于医学检索的检索词扩展装置的示意图；

图7示出了本发明又一实施例的用于医学检索的检索词扩展装置的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1示出了本发明的一个实施例的用于医学检索的检索词扩展方法的流程图，如图1所示，所述用于医学检索的检索词扩展方法至少包括步骤S01至步骤S05，详细介绍如下：

执行步骤S01，获取若干个初始检索词；

在本发明的一个实施例中，所述初始检索词是医学名称，其可以包含多个单词，例如：黄酮、番茄红素、营养元素等；所述初始检索词的数量大于等于2。

在本发明的一个实施例中，所述初始检索词可以是人工输入获取的，人工输入的查询语可以是通过键盘、触摸屏等输入设备输入的，也可以是通过语音等其他方式输入的。所述初始检索词也可以是通过除人工输入之外的其他方式获取的，例如通过其他算法获取。

执行步骤S02,分别计算与所述若干个初始检索词向量最相近的新单词。

在本发明的一个实施例中，在分别计算与所述若干个初始检索词向量最相近的新单词之前，预先获得每个单词的向量表示。

图2示出了本发明另一实施例的用于医学检索的检索词扩展方法的流程图，如图2所示，在步骤S01之前，首先执行步骤S00，预先获得每个单词的向量表示。

所述获得每个单词的向量表示的方法可以是使用词嵌入向量(word embedding)算法计算获得每个单词的向量表示。

词嵌入向量(word embedding)技术是NLP(自然语言处理)里面一个重要的概念，可以利用词嵌入向量(word embedding)技术将一个单词转换成固定长度的向量表示，从而便于进行数学处理。

通过本实施例的步骤S00得到每个单词的向量表示，即可以计算得到步骤S02中和所述初始检索词向量最相近的新单词。

图3示出了本发明一实施例的预先获得每个单词的向量表示的方法的流程图，如图3所示，在本实施例中，所述步骤S00至少具体包括以下步骤：

执行步骤S001，选定一个相关领域，并选定所述相关领域的若干个相关性文献以及若干个搜索词。

在本发明的一个实施例中，所述相关领域可以是心肌病、深度学习算法或文字定位算法等等。

在本发明的一个实施例中，所述选定所述相关领域的若干个相关性文献以及若干个搜索词可以是通过人工选定，也可以通过其他方式选定。

执行步骤S002，选取文献库。

在本发明的一个实施例中，为了获得更好的效果，选取尽量多的文献库。所述文献库不仅包括相关领域，也可以包括其他领域。所述文献库可以从目前的开源数据集中获取，也可以通过其他方式获取。

执行步骤S003，对所述文献库使用词嵌入向量(word embedding)算法，得到文献库中目标单词的向量表示。

由于所述词嵌入向量(word embedding)技术属于现有技术，因此这里不再具体说明。

通过本发明一实施例的步骤S001至S003的方法可以得到每个单词的向量表示，由此可以执行步骤S02，计算与所述若干个初始检索词向量最相近的新单词。

需要注意的是，本发明并不限定步骤S00的执行顺序，在本发明的另外一些实施例中，也可以在执行完步骤S01后再执行步骤S00。

执行步骤S03,以所述若干个初始检索词和所有所述新单词构建一个向量空间，所述向量空间包括所述若干个初始检索词和所有所述新单词，用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词。

执行步骤S04，计算所有所述新单词的得分，所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比。

在本发明的一个实施例中，若所述新单词与任一所述初始检索词有一条相连的线，则加一分，最终可以得到所有所述新单词的得分。

执行步骤S05，获得扩展词库，所述扩展词库为所述新单词中得分高于预设阈值的部分。

在本发明的一个实施例中，在第一次构建搜索关键词的时候，让人工专家参与判断新单词是否属于扩展词库(即是否和初始检索词相关)，根据人工专家的判断，可以得到最优切割方法，由此可以得到预设阈值。

在本发明的其他实施例中，也可以通过其他方式获得预设阈值，比如让使用者在使用时进行选择。例如：在使用者需要更全面更多的扩展词库时，可以在使用时调低预设阈值；在使用者需要更少但更准确的扩展词库时，可以在使用时调高阈值阈值。

通过本发明一实施例的方法，可以对所述新单词进行筛选，筛选出新单词中与所述初始检索词较为相关的部分。高于所述预设阈值的新单词就是我们需要的与所述初始检索词相关的扩展词库，低于所述预设阈值的新单词就是与所述初始检索词不太相关的。

图4示出了本发明的又一实施例的用于医学检索的检索词扩展方法的流程图，如图4所示，本发明另一实施例的方法至少包括以下步骤：

其中步骤S01至S05与上文所述的相同，在执行完步骤S05之后，执行步骤S06，判断是否需要进行下一次迭代。

若是，则将所述扩展词库作为所述初始检索词，继续执行步骤S01，进行下一次迭代。

若否，则结束。

在本发明的一实施例中，所述判断是否需要进行下一次迭代可以是由使用者在获得扩展词库后进行判断，也可以预先设定迭代次数或其他结束迭代的条件。

通过迭代的过程，可以得到更多的扩展词库，在此过程中，人工专家也可以参与，不断地优化所述预设阈值。

图5示出了本发明一实施例的用于医学检索的检索词扩展装置100的示意图，如图5所示，所述用于医学检索的检索词扩展装置100至少包括：

获取单元01，用于获取若干个初始检索词。

在本发明的一实施例中，所述获取单元可以是包括但不限于键盘、鼠标、电子指示笔或触摸屏等计算机输入设备。

第一计算单元02，与所述获取单元01相连,用于分别计算与所述若干个初始检索词向量最相近的新单词。

向量空间构建单元03，与所述第一计算单元02相连,用于以所述若干个初始检索词和所有所述新单词构建一个向量空间，所述向量空间包括所述若干个初始检索词和所有所述新单词，用线连接所述向量空间中任一初始检索词和与其向量最接近的所有的新单词。

第二计算单元04,与所述向量空间构建单元03相连，用于计算所有所述新单词的得分，所述新单词的得分与所述新单词与所述初始检索词相连的线的条数成正比。

在本发明的一个实施例中，所述第二计算单元04用于计算所有所述新单词的得分，若所述新单词与任一所述初始检索词有一条相连的线，则加一分，最终可以得到所有所述新单词的得分。

筛选单元05,与所述第二计算单元04相连，用于筛选所述新单词，获得扩展词库，所述扩展词库为所述新单词中得分高于预设阈值的部分。

在本发明的一个实施例中，在第一次构建搜索关键词的时候，让人工专家参与判断新单词是否属于扩展词库(即是否和初始检索词相关)，根据人工专家的判断，可以得到最优切割方法，由此可以得到预设阈值。也可以通过其他方式获得预设阈值，比如让使用者在使用时进行选择：在使用者需要更全面更多的扩展词库时，可以在使用时调低预设阈值；在使用者需要更少但更准确的扩展词库时，可以在使用时调高阈值。

图6示出了本发明又一实施例的用于医学检索的检索词扩展装置的示意图，如图6所示，所述装置还包括预处理单元00，所述预处理单元00与所述第一计算单元02相连，用于预先获得每个单词的向量表示。

在本发明的一个实施例中，所述预处理单元00使用词嵌入向量(word embedding)算法获得每个单词的向量表示。

图7示出了本发明另一实施例的用于医学检索的检索词扩展装置的示意图，如图7所示，所述装置还包括迭代单元06，所述迭代单元06与所述筛选单元04、获取单元01分别相连，用于判断是否需要进行下一次迭代；若是，则将所述扩展词库作为所述初始检索词，继续进行下一次迭代；若否，则结束。

在本发明的一实施例中，所述判断是否需要进行下一次迭代可以是由使用者在获得扩展词库后进行判断，也可以预先设定迭代次数或结束迭代的条件。

应当注意，尽管在上文中详细描述中提及了用于动作执行的装置的若干单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入所述装置中。所述计算机可读介质承载有一个或者多个程序，当所述一个或者多个程序被一个被处理器执行时，实现上述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

下面以三个案例说明使用上述实施例的用于医学检索的检索词扩展方法和装置对初始检索词进行扩展后得到的扩展词库：

案例1

初始搜索词是：黄酮、西红柿红素、营养元素、磷脂、营养素、含量低、微量元素、纤维素、氨基酸、茶多酚、赖氨酸、白藜芦醇、活性酶、有机酸、卵磷脂、水溶性、蛋白质、多糖、补充剂。

通过本发明一实施例的方法对初始搜索词进行扩展，得到如下的扩展词库：

西红柿红素、胡萝卜素、硫胺素、摄取、多糖、苹果酸、黄酮、磷脂、维生素、异黄酮、活性物质、叶绿素、辅酶、富含、谷维素、叶黄素、组氨酸、欧米伽、胆碱、亚麻酸、富含铁、芦丁、橙皮甙、活性酶、甾醇、氨基酸、油酸、b6、b1、b2、b3、咖啡碱、歧化酶、无机盐、黄酮类、钙质、抗坏血酸、b6、泛酸、果酸、纤维、白藜芦醇、牛磺酸、果胶、维生素类、咖啡因、可溶性、黄酮类物质、碳水化合物、亚油酸、花青素、乳酸、淀粉酶、茶茶多酚、类胡萝卜素脂类、果糖、色氨酸、赖氨酸、芥子油、矿物质、必需、植物性、叶酸、宏量、纳豆中、酵素、补充剂、鞣酸、大豆异黄酮、营养、核黄素、纤维素、生物碱、400iu、糖类、多酚、胱氨酸、硫氰酸盐、抗氧化剂、有机酸、滴剂、葡萄糖、烟酸、补充、b1：、dha、b12、卵卵磷脂、蛋白质、微量量元素、尼克酸、含有、不饱和、营养元素、水溶性、营养素、维他命、含量低、抗氧化、脂肪酸。

案例二

初始搜索词是：赛诺菲、azn、施贵宝、amgen、百时、regeneron、礼来、002198。

赛诺菲、诺华、勃林格、诺和诺德、罗氏、阿斯利利、辉瑞、默沙东、拜尔、regeneron、礼来、shire、辉瑞公司、美敦力。

案例三

初始搜索词是：玉竹、白芷、甘草、白菊花、女贞子、荆芥、干姜、当归、升麻、党参、小茴香、栀子、赤芍、泽泻、桔梗、白术、川芎、麦冬、砂仁。

五倍子、乳香、12g、苍术、艾叶、菟丝子、地榆、川乌、白术、伸筋草、紫花地丁、续断、山萸、桑枝、熟地、干姜、鳖甲、桑寄生、仙灵、柴胡、乌枣、生石膏、桑白皮、18克、玄参、秦艽、怀牛膝、半夏、决明、王不留行、龟板、延胡索、当归、松节、生地黄、黄柏、牛蒡子、白菊花、官桂、乌药、黄连、天花粉、芦根、石菖蒲、羌活、附子、透骨草、玉竹、牡丹皮、枳壳、丹参、六一散、半枝莲、淡竹叶、甘遂、苁蓉、牛膝、威灵仙、巴戟天、没药、白花蛇、川芎、麦门冬、茨实、海风藤、吴茱萸、胡桃肉、火麻仁、草豆蔻、款冬花、苦参、柏子仁、侧柏、独活、熟地黄、女贞子、僵蚕、芍药、韭菜子、鸡血藤、茵陈、木鳖子、茜草、雨前茶、白茅根、地肤、香薷、砂仁、土茯苓、细辛、桑椹子、泽泻、栀子、莪术、木通、桔梗、地丁、全蝎、厚朴、射干、五味子、白芷、肉苁蓉、莱菔子、桂心、竹茹、薤白、补骨脂、天冬、五灵脂、白芨、知母、云苓、赤芍、桑皮、白鲜、高良姜、升麻、肉豆蔻、小蓟、紫河车、麻黄、荆芥、连翘、鸡内金、滑石、太子参、枳实、丹皮、金钱草、郁金、蛇床子、桂枝、冬瓜子、麦冬、山茱萸、青木香、黄芩、旱莲草、车前子、黄精、薏仁米、五加皮、丝瓜络。

通过以上的案例，可以看到，本发明实施例的方法和装置相比现有技术具有如下优点：

通常使用者对于相关的医学名称不够了解，对于一样东西只知道一种名称，而不了解是否还有其他名称，即使是医学专家也不会知道所有名称，检索中很容易造成漏检。使用本发明实施例的方法可以通过对输入的初始检索词(医学名称)进行扩展，得到所有与其相同或相关联的医学名称，从而可以得到更全面的检索结果，避免产生遗漏检索结果的情况。

在现有技术中，使用者为了得到更准确、全面的检索结果，需要列举出一个医学名称的相同或相关联的其他名称作为检索词，花费时间较多，使用体验也较差。而使用本发明实施例的方法使用者只需要输入部分检索词，就可以扩展得到更多的检索词，这就可以节省使用者输入检索词的时间，方便使用。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种用于医学检索的检索词扩展方法，其特征在于，包括：

获取若干个初始检索词；

分别计算与所述若干个初始检索词向量最相近的新单词；

2.根据权利要求1所述的方法，其特征在于，在分别计算与所述若干个初始检索词向量最相近的新单词之前，预先获得每个单词的向量表示。

3.根据权利要求2所述的方法，其特征在于，所述获得每个单词的向量表示的方法为词嵌入向量算法。

4.根据权利要求3所述的方法，其特征在于，所述获得每个单词的词向量的方法包括：

选取文献库；

对所述文献库使用词嵌入向量算法，得到所述文献库中目标单词的向量表示。

5.根据权利要求1所述的方法，其特征在于，计算所有所述新单词的得分的方法为若所述新单词与任一所述初始检索词有一条相连的线，则加一分。

6.根据权利要求1所述的方法，其特征在于，在获得扩展词库后，判断是否需要进行下一次迭代，

若否，则结束。

7.一种用于医学检索的检索词扩展装置，其特征在于，包括：

获取单元，用于获取若干个初始检索词；

8.根据权利要求7所述的装置，其特征在于，还包括预处理单元，与所述第一计算单元相连，用于预先获得每个单词的向量表示。

9.根据权利要求7所述的装置，其特征在于，还包括迭代单元，与所述筛选单元、获取单元分别相连，用于判断是否需要进行下一次迭代；若是，则将所述扩展词库作为所述初始检索词，继续进行下一次迭代；若否，则结束。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-6中任一项所述方法。