CN114154502B - 医学文本的分词方法、装置、计算机设备和存储介质 - Google Patents
医学文本的分词方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114154502B CN114154502B CN202210121004.XA CN202210121004A CN114154502B CN 114154502 B CN114154502 B CN 114154502B CN 202210121004 A CN202210121004 A CN 202210121004A CN 114154502 B CN114154502 B CN 114154502B
- Authority
- CN
- China
- Prior art keywords
- medical
- word
- words
- compound
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施方式提供了一种医学文本的分词方法、装置、计算机设备和存储介质。包括:获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。通过对医学文本采用多维词典匹配、模型预测和词语联想的方法,实现一款能提高医学文本分词准确性的医学分词工具。
Description
技术领域
本说明书实施方式涉及自然语言处理领域,具体涉及一种医学文本的分词方法、装置、计算机设备和存储介质。
背景技术
随着我国健康医疗资源不断丰富,医疗数据的规模不断增加,对医学术语进行正确提取意义重大。要想保证上层自然语言处理任务的效果,对语言的词法分析尤为基础和重要。现有的医学分词工具主要是基于医学词典和通用的分词工具进行的,对于中文医学文本的切分存在着缩略语无法识别、分词不规范、歧义词语无法识别、一词多义等问题。
发明内容
有鉴于此,本说明书多个实施方式致力于提供一种医学文本的分词方法、装置、计算机设备和存储介质,以提供一种能提高医学文本分词准确性的方法。
本说明书实施方式提出了一种医学文本的分词方法,应用于计算机设备,包括:获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。
本说明书实施方式提出了一种医学文本的分词装置,包括:医学词语获取模块,用于获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;医学复合词切分模块,用于按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;医学词语词性标注模块,用于标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。
本说明书实施方式提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述实施方式所述的方法。
本说明书实施方式提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述实施方式所述的方法。
本说明书实施方式通过对医学文本采用多维词典、模型预测、知识图谱中的词语联想以及对匹配到医学词典中的词语进行多粒度分词,从而实现了一款较为完善的医学分词器,提高了医学文本分词的准确性。
附图说明
图1所示为一实施方式提供的一个场景示例不同端交互的示意图。
图2所示为一实施方式提供的一个场景示例不同端交互的示意图。
图3所示为一实施方式提供的医学文本的分词方法的流程示意图。
图4所示为一实施方式提供的医学文本中的医学复合词的多粒度分词方法。
图5所示为一实施方式提供的医学文本的分词装置示意图。
具体实施方式
为了使本技术领域的人员更好的理解本说明书方案,下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本说明书保护的范围。
请参阅图1和图2。本说明书提供一个医学文本分词系统的场景示例,所述医学文本分词系统可以包括客户端和服务器。其中,服务器中存储有医学词典、常用词词典和与医学有关的医学知识图谱。用户可能是医疗领域的工作者,需要在医学文本分词系统对医学文本进行分词处理后对结果进行分析和应用。在一次医学文本分词事件中,用户可能会希望从医学文本中获取多粒度的医学词语、非医学词语和医学词语可能的扩展词语。当然,所述医学文本分词系统也可直接安装在客户端上,且客户端中存储有医学词典、常用词词典和与医学有关的医学知识图谱。
用户首先会向客户端输入需要分词的医学文本。医学文本中包括了“患者进行上眼睑皱纹切除术”。客户端在获取到医学文本后,会将医学文本发送到服务器。接着服务器接收到医学文本后,服务器会先将医学文本中文字采用动态规划的方法与服务器中存储的医学词典进行最大匹配,从而获取到了医学词语“上眼睑皱纹切除术”。对获取到的医学词语进一步判断是否可再分,将可再分的医学词语标记为医学复合词;不可再分的医学词语表示为医学基础词,其中,“上眼睑皱纹切除术”为医学复合词。在获取到医学复合词之后,对医学复合词按照医学文本中的文字顺序进一步切分成“上眼睑”、“皱纹切除术”。其中,“上眼睑”和“皱纹切除术”仍属于医学复合词,可继续切分为“上/眼睑”、“皱纹/切除术”,最终分成多个非复合的医学子词“上眼睑”、“皱纹”、“切除术”。将医学基础词、医学复合词和医学子词及医学基础词、医学复合词和医学子词对应的词性作为医学文本的医学分词结果。其中,“上眼睑皱纹切除术”的医学分词结果为“上眼睑皱纹切除术”、“手术”、[4,11];“上眼睑”、“部位”、[4,6];“皱纹切除术”、“手术”、[7,11];“眼睑”、“部位”、[5,6];“皱纹”、“症状”、[7,8];“切除术”、“手术方式”、[9,11]。
当确定了医学文本的医学分词结果后,还需要获取医学文本中的非医学词语作为医学文本的非医学分词结果。服务器会将医学文本中的文字采用动态规划的方法与服务器中存储的常用词词典进行最大匹配,获取到常用词词典中的非医学词语“进行”。接着,服务器会将医学文本中非医学词典和非常用词词典中的词语“患者”输入到预设的通用分词模型中进行预测,得到的预测词性为名词,将其标记为未登录词,并对其词性进行标记。将常用词词典中的非医学词语和未登录词作为医学文本的非医学分词结果为“患者”、“名词”、[0,1];“进行”、“动词”、[2,3]。
在获取到医学文本中的医学基础词和医学子词后。服务器会将医学文本中的医学基础词和医学子词分别与服务器中存储的医学知识图谱中进行搜索,确定医学基础词和医学子词可能的扩展词。最终,服务器会将医学基础词及对应的词性、医学复合词及对应的词性、医学子词及对应的词性、常用词词典中的非医学词语及对应的词性、未登录词及对应的词性和扩展词作为医学文本的分词结果返回给客户端。客户端在接收到医学文本的分词结果后通过显示器将医学文本的分词结果呈现给用户。
以上所述仅为本说明书提供的一个场景示例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
本说明书实施方式提供一种医学文本分词系统。所述医学文本分词系统可以包括客户端和服务器。所述客户端可以是具有网络访问能力的电子设备。具体的,例如,客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者,客户端也可以为能够运行于所述电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
请参阅图3,本说明书提供了一种医学文本的分词方法,所述方法包括以下步骤。
步骤S110:获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词。
医学文本中的信息量较大,包括了大量的医学词语和非医学词语。为了正确提取医学文本中的医学信息,可以先将医学文本在预设的医学词典中进行匹配得到医学词语。因此,可以通过将医学文本与医学词典中的词语进行匹配得到医学基础词和医学复合词,在此基础上进一步对医学复合词进行分词处理。
所述医学文本可以是与医学有关的文本信息。具体的,如门诊病历、出入院记录、报告单、处方笺、诊断证明中记载的文字信息。除此以外,也可以是一个与医学相关的术语、医学领域的学术论文、医学领域的专利、医学领域的报刊等。
所述医学基础词是对医学文本在预设的医学词典中进行最大匹配以后就达到了指定粒度或者未达到指定粒度但不能进一步切分的医学词语。具体的,例如,在指定粒度为2的情况下,“阿莫西林”这个医学词语不能进一步切分,所以“阿莫西林”属于医学基础词;再例如,“口服”这个词为医学词语,且达到了指定粒度,因此,“口服”这个词语也属于医学基础词。但是,如果“发热”这个词语是由医学文本中在预设的医学词典中最大匹配得到的“额头发热”这个切分得到的,则“发热”这个词语不属于医学基础词。
所述医学复合词是对医学文本在预设的医学词典中进行最大匹配以后未达到指定粒度且可进一步切分的医学词语。所述医学复合词可以用于医学文本中医学词语的多粒度分词。具体的,例如,在指定粒度为2的情况下,“胃溃疡”这个医学词语没有达到指定粒度,且可以进一步切分成“胃/溃疡”,因此,“胃溃疡”这个医学词属于医学复合词。
所述医学子词是所述医学复合词的子集,是对所述医学复合词进一步切分的结果。在对医学复合词进一步切分以后可以明确医学复合词各医学子词的特征。具体的,例如,医学复合词是“胃溃疡”,表示症状,那么所述医学复合词对应的医学子词可以是“胃”表示部位、“溃疡”表示症状。
所述获取所述医学文本中的医学基础词和医学复合词的方法,可以由服务器直接获取医学文本,通过动态规划的方法在医学词典中进行最大匹配,获取所述医学文本中的医学词语。再根据指定粒度和所述医学词语是否可以进一步切分出医学基础词和医学复合词。当然,也可以由用户从客户端将医学文本发送到服务器。
步骤S120:按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词。
在一些实施方式中,获取的医学复合词包括了多个特征。其中,医学复合词对应的多个医学子词为所述医学复合词的多个特征。因此,通过对医学复合词进一步切分,切分得到的医学子词就可以表征所述医学复合词的多个特征。
所述非复合的医学子词是所述医学复合词的子集,且已经达到了指定粒度或者不能进一步切分。具体的,例如,在指定粒度为2的情况下,医学复合词“口腔溃疡”,那么“口腔”和“溃疡”为“口腔溃疡”的非复合医学子词。
所述医学复合词中的一个文字被分入一个医学子词是在所述医学复合词有多种切分组合的情况下,根据词频确定所述医学复合词的分词结果。具体的,例如,医学复合词为“额头发热”,其切分的情况包括“额头/发热”和“额/头发/热”两种情况,根据所述医学复合词在对应的医学文本中的上下文和所述医学子词在预设的医学词典中的词频确定所述医学复合词最大概率的切分组合为“额头/发热”。
所述将所述医学复合词切分成多个非复合的医学子词的方法可以采用动态规划和基于所述医学子词在预设医学词典中的词频确定医学子词的最大概率的切分组合。
步骤S130:标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。
在对医学文本的分词结果应用的时候,除了需要应用到分词本身的结果外,还需要获取分词的词性。在对医学文本的分词结果标注后,标注的词性为对应医学文本所表征的内容,那么在后续的医学术语标准化、电子病历结构化的结果更为准确。
所述标注所述医学基础词、所述医学复合词和所述医学子词的词性的方法可以是基于所述医学基础词、所述医学复合词和所述医学子词的对应的医学文本上下文和所述医学基础词、所述医学复合词和所述医学子词在预设医学词典中的词频确定。具体的,例如,医学文本中包含了“患者进行上眼睑皱纹切除术”的医学分词结果为:上眼睑皱纹切除术、上眼睑、皱纹切除术、眼睑、皱纹、切除术;各分词对应的词性分别为:手术、部位、手术、部位、症状、手术方式。
在一些实施方式中,获取所述医学文本中的医学基础词和医学复合词的步骤,可以包括:使用预设医学词典在所述医学文本中匹配得出所述医学文本包括的医学词语;使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的目标医学词语;其中,所述目标医学词语至少包括以下之一:医学基础词、医学复合词;将能被进一步切分出医学子词的目标医学词语确定为医学复合词,其中,所述目标医学词语中除所述医学复合词之外的部分作为医学基础词。
在确定了医学文本中的医学词语后,进一步将医学词语分成医学基础词和医学复合词。医学文本中的医学复合词可以是多个医学子词组合而成,因此医学复合词的单个词性并不能表征整个医学复合词的含义。通过区分出医学基础词和医学复合词后,可以为下一步医学文本中医学词语的多粒度分词做准备。
所述动态规划分词法是在获取到医学文本中的文字可能的分词结果后,为了避免在医学词语分词的时候出现歧义,根据医学词语在医学文本中的上下文和医学词语在医学字典中的词频确定正确的医学分词结果。具体的,例如,“小明的额头发热。”这句话中的医学分词结果可以是“额头”、“发热”和“头发”,但通过这句话的语义可知,“头发”这个词语并不是所述医学文本的分词。采用动态规划的方法,就可以确定该文本的分词的最大概率的切分组合,从而可以避免错误的分词结果在应用上可能会遇到的问题。
所述目标医学词语为医学文本中正确的医学分词结果。其中,目标医学词语包括了医学基础词和医学复合词中的至少一个。具体的,例如,“小明的额头发热。”这句话中的医学分词结果可以是“额头”、“头发”、“发热”。其中,有歧义的词语应该是“头”应该与“额”进行组合还是与“发”进行组合,根据“额头”和“头发”在医学词典中的词频以及结合所述医学文本判断选用“头发”这个词语时,其前会不会出现“额”这个字,从而得到目标医学词语为“额头”、“发热”。
在一些实施方式中,使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的目标医学词语的步骤,可以包括:根据所述医学文本构造所述医学词语的字典树结构;在所述字典树中使用所述动态规划分词法确定所述医学文本的目标医学词语;其中,所述目标医学词语至少包括以下之一:医学基础词、医学复合词。
通过构造医学文本中的词语在字典中的词语的字典树结构,方便在动态规划的过程中更快的搜索。
所述字典树结构,是医学文本中文字可能的组合。例如,“小明的额头发热”构造的字典树就可以包括:“额头”:[3,4];“头发”:[4,5];“发热”:[5,6]。根据各个词语在字典树中的位置和各个词语在医学词中的词频确定最终的目标医学词语为:“额头”:[3,4];“发热”:[5,6]。
请参阅图4,在一些实施方式中,使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的目标医学词语的步骤,可以包括:生成所述医学词语在所述医学文本中的位置坐标;基于所述医学词语的位置坐标采用动态规划分词法确定所述医学文本的目标医学词语;其中,所述目标医学词语至少包括以下之一:医学基础词、医学复合词。
通过生成所述医学词语在所述医学文本中的位置坐标和医学词语可以构造医学文本的有向无环图,从而在动态规划的过程中,可以节约服务器的存储空间。所述有向无环图可以是医学文本中所有医学词语可能的组合构成,其上只需要将医学词语中重复的医学词语存储1次,从而降低了医学文本的存储空间。
在一些实施方式中,标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学分词结果的步骤,可以包括:分别获取所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性;其中,所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性在预设医学词典中记录有频数;分别基于所述医学基础词在所述医学词典中的频数、所述医学复合词在所述医学词典中的频数和所述医学子词在所述医学词典中的频数,以及所述医学基础词在所述医学文本中的上下文、所述医学复合词在所述医学文本中的上下文和所述医学子词在所述医学文本中的上下文,确定所述医学基础词、所述医学复合词和所述医学子词的词性的顺序;按照所述医学词、所述医学复合词、所述医学子词的词性的顺序,标注所述医学基础词、所述医学复合词和所述医学子词在所述医学文本中的词性。
医学文本中的医学词语医学词典中可能包括了多种词性,然而医学文本中分词的词性可能只有一种。因此,为了医学文本分词的准确性,也需要准确标注医学文本中分词结果的词性。
所述预设医学词典为在进行医学文本分词之前,收集了各种医学词语。这些医学词语可以来自专门的医学词语数据库、门诊病历中的医学词语、检查单中的医学词语、出入院记录中的医学词语等。
所述确定所述医学基础词、所述医学复合词和所述医学子词的词性的顺序可以基于医学词语在医学词典中的词频确定以及所述医学词语在医学文本中的上下文确定。具体的,例如,“结节”这个词语既可以是“影像可见”,也可以是“症状”。具体的,例如,“根据CT可见肺部有明显结节,疑似患有肺结节”,则第一个“结节”分词的词性标注结果为“影像可见、症状”,第二个“结节”分词的词性标注结果为“症状、影像可见”。
在一些实施方式中,一种医学文本的分词方法还可以包括:获取所述医学文本中的非医学标准词;标注所述非医学标准词的词性,得到所述医学文本的非医学标准词分词结果;其中,所述医学文本的分词结果包括所述医学词分词结果和所述非医学标准词分词结果。
医学文本中的非医学词语也是医学文本的重要组成部分。通过对医学文本中非医学标准词进行分词和词性标注,从而可以获取医学文本中的医学词语和非医学标准词的分词结果,使得分词结果更为全面。
所述非医学标准词从属于预设的常用词词典,属于所述医学文本的从属信息。对医学文本中的非医学标准词准确的分词,在后续对医学文本分词结果应用的过程中有重要的作用。
所述非医学标准词的词性可以用于表征所述非医学标准词的特征。所述标注所述非医学标准词的词性方法可以基于所述非医学标准词在对应的医学文本中的上下文和所述非医学标准词在预设常用词词典的词频的统计确定。
在一些实施方式中,获取所述医学文本中的非医学标准词的步骤,可以包括:使用预设常用词词典在所述医学文本中匹配得出所述医学文本包括的非医学标准词语;使用动态规划分词法对所述非医学标准词语进行处理,得出所述医学文本的目标非医学标准词语。
为了完善医学文本的分词结果,还需要对医学文本中的非医学词语进行分词处理。非医学词语也可以包括了一些医学词典中未收录的特征。
所述非医学标准词是医学文本中属于常用词词典中的词语。具体的,例如,“患者进行上眼睑皱纹切除术”,其在医学词典中分词结果可以是“上眼睑皱纹切除术”,接着会将“患者进行”在常用词词典中进行匹配,最终的分词结果可以是“患者/进行/上眼睑皱纹切除术”。
所述获取所述医学文本中非医学标准词的方法可以是在常用词词典中匹配到了可能的非医学标准词后,再采用动态规划的方法进一步切分。具体的,例如,“中华人民共和国”的分词结果可以是“中华”、“华人”、“人民”、“共和国”,采用动态规划方法最终得到的分词结果是“中华/人民/共和国”。
在一些实施方式中,所述医学文本包括预设医学词典和预设常用词词典中未出现的词语,所述词语为未登录词;所述方法还可以包括:采用指定分词工具确定所述未登录词的词性;得到所述医学文本的未登录词分词结果。
由于字典中收录的词语有限,除了医学词典和常用词词典外,医学文本中还可能有医学词典和常用词词典中未出现的词,为了使得医学文本的分词更加完善、准确,还需要对医学文本中在医学词典和常用词词典中均未出现的词语进行预测。
所述未登录词为在医学词典和常用词词典中均未出现的词语。为了对医学文本中的分词尽量的准确、完善,可以利用通用的分词工具来实现未登录词的词性预测和标注。
在一些实施方式中,一种医学文本的分词方法,还可以包括:获取与所述医学子词和所述医学基础词有关的医学知识图谱;从所述医学知识图谱中检索所述医学子词的扩展词和所述医学基础词的扩展词;将所述扩展词作为所述医学文本的补充分词结果。
由于医学表达的特殊性,一个医学词语可能有多种表达方式,或是简写、或是缩写,将这些词语可能的扩展词语都标记出来,在对医学文本分词后,对于医学文本的分类、搜索、查询会更加方便、准确。
所述扩展词可以是在医学知识图谱中与医学文本中的医学子词和医学基础词有关的词语。具体的,例如:医学词语为“红房子”,其扩展词可以是“上海交通大学附属妇幼保健院”;再比如,医学词语为“感冒”,其扩展词可以是“上呼吸道感染”。
在一些实施方式中,一种医学文本的分词方法,还可以包括:标注医学基础词、医学复合词、医学子词、非标准医学词和未登录词在医学文本中的位置信息。
由于一个分词在医学文本中可能出现了多次,但根据所述分词在医学文本中的位置的上下文可知,所述医学文本的词性可能存在着较大的差异。因此,对医学文本中出现所述分词的位置和词性分别进行标注,从而提高了分词结果的可靠性,为后续的自然语言处理也提供了极大的便利。具体的,例如,医学文本中包括了“根据CT可见小明的右肺上叶有微小结节,疑似患有肺结节。”因此,在进行分词和词性标注的时候,可以表示为:“结节”、[16,17];“结节”、[24,25]。
请参阅图5,在一些实施方式中可以提供一种医学文本的分词装置,可以包括:医学词语获取模块、医学复合词切分模块、医学词语词性标注模块。
医学词语获取模块,用于获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;
医学复合词切分模块,用于按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;
医学词语词性标注模块,用于标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。
关于医学文本的分词装置实现的具体功能和效果,可以参照本说明书其他实施方式对照解释,在此不再赘述。所述文献资料文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施方式中可以提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该存储器执行计算机程序时实现所述实施方式中的方法步骤。
本说明书实施方式提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,计算机程序被处理器执行时实现所述实施方式中的方法步骤。
本领域普通技术人员可以理解实现所述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如所述各方法的实施方式的流程。其中,本说明书所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本说明书多个实施方式之间,采用递进的方式进行描述。不同的实施方式着重于描述相较于其它实施方式不相同的部分。所属领域技术人员在阅读本说明书之后,可以获知本说明书中的多个实施方式,以及实施方式揭示的多个技术特征,可以进行更多种的组合,为使描述简洁,未对所述实施方式中的各个技术特征所有可能的组合都进行描述。然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的多个实施方式本身均着重于强调与其他实施方式不同的部分,各实施方式之间可以相互对照解释。所属领域技术人员基于一般的技术常识对本说明书中的多个实施方式的任意组合均涵盖于本说明书的揭示范围内。
以上所述仅为本案的实施方式而已,并不用以限制本案的权利要求保护范围。对于本领域技术人员来说,本案可以有各种更改和变化。凡在本案的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本案的权利要求范围之内。
Claims (9)
1.一种医学文本的分词方法,其特征在于,应用于计算机设备,所述方法包括:
获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;其中,包括:使用预设医学词典在所述医学文本中匹配得出所述医学文本包括的医学词语;使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的医学基础词和医学复合词;其中,将能被进一步切分出医学子词的医学词语确定为医学复合词;
按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;
分别获取所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性;其中,所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性在预设医学词典中记录有频数;
分别基于所述医学基础词在所述医学词典中的频数、所述医学复合词在所述医学词典中的频数和所述医学子词在所述医学词典中的频数,以及所述医学基础词在所述医学文本中的上下文、所述医学复合词在所述医学文本中的上下文和所述医学子词在所述医学文本中的上下文,确定所述医学基础词、所述医学复合词和所述医学子词的词性的顺序;
按照所述医学词、所述医学复合词、所述医学子词的词性的顺序,标注所述医学基础词、所述医学复合词和所述医学子词在所述医学文本中的词性;
获取所述医学文本中的非医学标准词;其中,所述非医学标准词属于预设的常用词词典;
标注所述非医学标准词的词性,得到所述医学文本的非医学标准词分词结果;其中,所述医学文本的分词结果包括所述医学词分词结果和所述非医学标准词分词结果;
获取与所述医学子词和所述医学基础词有关的医学知识图谱;
从所述医学知识图谱中检索所述医学子词的扩展词和所述医学基础词的扩展词;
将所述扩展词作为所述医学文本的补充分词结果。
2.根据权利要求1所述的方法,其特征在于,使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的医学基础词和医学复合词的步骤,包括:
根据所述医学文本构造所述医学词语的字典树结构;
在所述字典树中使用所述动态规划分词法确定所述医学文本的医学基础词和医学复合词。
3.根据权利要求1所述的方法,其特征在于,使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的医学基础词和医学复合词的步骤,包括:
生成所述医学词语在所述医学文本中的位置坐标;
基于所述医学词语的位置坐标采用动态规划分词法确定所述医学文本的医学基础词和医学复合词。
4.根据权利要求1所述的方法,其特征在于,获取所述医学文本中的非医学标准词的步骤,包括:
使用预设常用词词典在所述医学文本中匹配得出所述医学文本包括的非医学标准词语;
使用动态规划分词法对所述非医学标准词语进行处理,得出所述医学文本的目标非医学标准词语。
5.根据权利要求1所述的方法,其特征在于,所述医学文本包括预设医学词典和预设常用词词典中未出现的词语,所述词语为未登录词;所述方法还包括:
采用指定分词工具确定所述未登录词的词性;得到所述医学文本的未登录词分词结果。
6.根据权利要求1所述的方法,其特征在于,在获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词的步骤前,包括:
从数据和/或文件中加载词典;其中,所述词典中包括词语、词语的词性、词语的词频;
生成医学词典和常用词词典,将所述词典中的医学词语、所述医学词语的词性和所述医学词语的词频加载到所述医学词典中,将所述词典中的非医学标准词语、所述非医学标准词语的词性和所述非医学标准词语的词频加载到所述常用词词典中。
7.一种医学文本的分词装置,其特征在于,包括:
医学词语获取模块,用于获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;其中,包括:使用预设医学词典在所述医学文本中匹配得出所述医学文本包括的医学词语;使用动态规划分词法对所述医学词语进行处理,得出所述医学文本的医学基础词和医学复合词;其中,将能被进一步切分出医学子词的医学词语确定为医学复合词;
医学复合词切分模块,用于按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;
医学词语词性获取模块,用于分别获取所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性;其中,所述医学基础词的词性、所述医学复合词的词性和所述医学子词的词性在预设医学词典中记录有频数;
医学词语词性确定模块,用于分别基于所述医学基础词在所述医学词典中的频数、所述医学复合词在所述医学词典中的频数和所述医学子词在所述医学词典中的频数,以及所述医学基础词在所述医学文本中的上下文、所述医学复合词在所述医学文本中的上下文和所述医学子词在所述医学文本中的上下文,确定所述医学基础词、所述医学复合词和所述医学子词的词性的顺序;
医学词语词性标注模块,用于按照所述医学词、所述医学复合词、所述医学子词的词性的顺序,标注所述医学基础词、所述医学复合词和所述医学子词在所述医学文本中的词性;
非医学标准词获取模块,用于获取所述医学文本中的非医学标准词;其中,所述非医学标准词属于预设的常用词词典;
非医学标准词词性标注模块,用于标注所述非医学标准词的词性,得到所述医学文本的非医学标准词分词结果;其中,所述医学文本的分词结果包括所述医学词分词结果和所述非医学标准词分词结果;
医学知识图谱获取模块,用于获取与所述医学子词和所述医学基础词有关的医学知识图谱;
扩展词确定模块,用于从所述医学知识图谱中检索所述医学子词的扩展词和所述医学基础词的扩展词;
补充分词获取模块,用于将所述扩展词作为所述医学文本的补充分词结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210121004.XA CN114154502B (zh) | 2022-02-09 | 2022-02-09 | 医学文本的分词方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210121004.XA CN114154502B (zh) | 2022-02-09 | 2022-02-09 | 医学文本的分词方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154502A CN114154502A (zh) | 2022-03-08 |
CN114154502B true CN114154502B (zh) | 2022-05-24 |
Family
ID=80450800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210121004.XA Active CN114154502B (zh) | 2022-02-09 | 2022-02-09 | 医学文本的分词方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154502B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
CN111950283A (zh) * | 2020-07-31 | 2020-11-17 | 合肥工业大学 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
CN112949303A (zh) * | 2021-03-01 | 2021-06-11 | 山东健康医疗大数据有限公司 | 病历文本数据结构化的文本分词解析方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220300B (zh) * | 2017-05-05 | 2018-07-20 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
WO2021146831A1 (zh) * | 2020-01-20 | 2021-07-29 | 京东方科技集团股份有限公司 | 实体识别的方法和装置、建立词典的方法、设备、介质 |
CN112765318A (zh) * | 2021-01-20 | 2021-05-07 | 阅尔基因技术(苏州)有限公司 | 一种用于不孕不育症临床表型信息的自然语言处理方法及系统 |
-
2022
- 2022-02-09 CN CN202210121004.XA patent/CN114154502B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
CN111950283A (zh) * | 2020-07-31 | 2020-11-17 | 合肥工业大学 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
CN112949303A (zh) * | 2021-03-01 | 2021-06-11 | 山东健康医疗大数据有限公司 | 病历文本数据结构化的文本分词解析方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于词性标注与分词消歧的中文分词方法;熊健等;《广州大学学报(自然科学版)》;20191015(第05期);第31-37页 * |
病理镜检文本数据的结构化处理方法;陈德华等;《计算机与现代化》;20160415(第04期);第5-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114154502A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109906449B (zh) | 一种查找方法及装置 | |
CN110134796B (zh) | 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质 | |
US20180365211A1 (en) | Method and Device for Recognizing Domain Named Entity | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
CN117744654A (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN109920540A (zh) | 辅助诊疗决策系统的构建方法、装置及计算机设备 | |
CN108920453A (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
CN114817386A (zh) | 一种结构化医疗数据生成方法及装置 | |
CN112015900B (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
CN107545023B (zh) | 文本型指标的提取方法和装置 | |
US20210183526A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
CN111435410B (zh) | 用于医疗文本的关系抽取方法及其装置 | |
US20100010806A1 (en) | Storage system for symptom information of Traditional Chinese Medicine (TCM) and method for storing TCM symptom information | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
CN114021563A (zh) | 医疗信息中数据的抽取方法、装置、设备和存储介质 | |
CN111177309A (zh) | 病历数据的处理方法及装置 | |
EP3901875A1 (en) | Topic modelling of short medical inquiries | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN114154502B (zh) | 医学文本的分词方法、装置、计算机设备和存储介质 | |
CN111008519A (zh) | 阅读页面的展示方法、电子设备及计算机存储介质 | |
CN113780454B (zh) | 模型训练及调用方法、装置、计算机设备、存储介质 | |
CN111797626A (zh) | 一种命名实体识别方法及装置 | |
CN114639456A (zh) | 医学审评的生成方法、装置、计算机设备和存储介质 | |
CN112053760B (zh) | 用药指导方法、用药指导装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |