CN113988067B - 语句分词方法、装置及电子设备 - Google Patents
语句分词方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113988067B CN113988067B CN202111339519.9A CN202111339519A CN113988067B CN 113988067 B CN113988067 B CN 113988067B CN 202111339519 A CN202111339519 A CN 202111339519A CN 113988067 B CN113988067 B CN 113988067B
- Authority
- CN
- China
- Prior art keywords
- word
- current
- word segmentation
- segmentation set
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 287
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- PNDPGZBMCMUPRI-HVTJNCQCSA-N 10043-66-0 Chemical compound [131I][131I] PNDPGZBMCMUPRI-HVTJNCQCSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
本发明提供了一种语句分词方法、装置及电子设备,涉及文本处理技术领域。其中的方法应用于电子设备,该方法包括:获取初始语句以及初始语句对应的第一分词集合;通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合。本发明通过正则表达式,得到与实际应用场景更加匹配的第二分词集合,基于第二分词集合确定的目标分词集合在保留了原有分词结果的基础上,进一步将特殊词语进行了优化,使得分词结果更准确。
Description
技术领域
本发明涉及文本处理技术领域,尤其是涉及一种语句分词方法、装置及电子设备。
背景技术
目前针对语句的分词,通常使用一些分词工具及特定领域的词库,得到一个语句的拆分后的词语的集合,并利用其中的词语进行进一步的分析以及处理。
但该方法由于对词库的较强依赖,使得中文中存在的一些变量,如时间、数字、特定领域中期待分出的一些符合规则的字符串等,不能很好的分出来。
发明内容
有鉴于此,本发明的目的在于提供一种语句分词方法、装置及电子设备,以提高在医学病例研究领域中分词结果的准确性。
第一方面,本发明实施例提供一种语句分词方法,该方法应用于电子设备,该方法包括:获取初始语句以及初始语句对应的第一分词集合;其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句;通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置;根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合;其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
进一步地,上述根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合的步骤,包括:针对第一分词集合中的每个第一词语以及第二分词集合中的每个第二词语,分别执行以下判断:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系;根据位置关系以及预设匹配规则,对当前第二词语进行更新。
进一步地,上述根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系的步骤,包括:如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等。
进一步地,上述如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语的步骤,包括:当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置且当前第一词语的终止位置大于当前第二词语的终止位置。
进一步地,上述预设匹配规则为:如果当前第一词语包含当前第二词语,删除当前第二词语;如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
进一步地,上述根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合的步骤,包括:根据更新后的第二分词集合,对初始语句进行分割,得到子句集合;对子句集合中的每个子句进行分词处理,得到第三分词集合;其中,分词处理为通过分词工具和/或神经网络模型对子句进行分词;根据更新后的第二分词集合中的每个第二词语的起始位置和终止位置,以及第三分词集合中的每个第三词语的起始位置和终止位置,将第二词语以及第三词语进行组合,得到目标分词集合。
进一步地,上述第一分词集合通过分词工具和/或神经网络模型确定。
第二方面,本发明实施例还提供一种语句分词装置,该装置包括:获取模块,用于获取初始语句以及初始语句对应的第一分词集合;其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句;第二分词集合确定模块,用于通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置;更新模块,用于根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;目标分词集合确定模块,用于根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合;其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面的语句分词方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面的语句分词方法。
与现有技术相比,本发明具有以下有益效果:
本发明实施例提供的上述语句分词方法、装置及电子设备,通过预设的正则表达式,得到与实际应用场景更加匹配的第二分词集合,并根据第一分词集合对第二分词集合进行更新,并基于更新后的第二分词集合再次对初始语句进行分词,得到的目标分词集合在保留了原有分词结果的基础上,进一步根据正则表达式将特殊词语进行了优化,使得分词结果更准确。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种语句分词方法的流程图;
图3为本发明实施例提供的另一种语句分词方法的流程图;
图4为本发明实施例提供的一种语句分词装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在相关技术中,对于医学病例的分词处理通常是首先对待处理文本按照业务场景进行预处理后得到输入语句,使用分词工具和特定领域的词库,基于统计模型的CRF(Conditional Random Fields,条件随机场)方法或者基于神经网络训练得到的分词模型工具,利用上述方法对输入文进行分词,得到分词结果,对于分词结果进行进一步的处理,或者不进行处理,直接输出分词结果。
针对中文分词,就是将输入的一段连续的汉字按照一定的规则切分成一个个单独的词汇。现有的分词算法大体分为基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。其中针对电子病历结构化,一般采用基于字符串匹配的分词方法。按照分词的切分粒度还可以分为粗细度切分和细粒度切分。
但是,上述方法对于词库的依赖性较高,对于词库中存在词,可以很好地划分出来,但是中文中常常存在一些变量,例如时间、数字、特定领域中期待分出的一些符合规则的字符串等,不能很好的分出来。除非不断地丰富词库,但会明显增加时间和精力来添加词库。
而基于模型的分词方法,不管是基于统计的方法还是基于神经网络的方法训练得到的模型,它们都依赖于标注数据集,只有大量而相对较全的数据集才能训练比较好的分词模型。这数据集的标注需要大量的人力,人力成本和时间成本较高,准确度上也不能很好的保证。基于此,本发明实施例提供一种语句分词方法、装置及电子设备,以提高在医学病例研究领域中分词结果的准确性。
参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的语句分词方法和装置。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个数据采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
处理设备102可以为服务器、智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行语句分词功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
数据采集设备110可以获取电子病历中待处理的语句,将待处理语句存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的语句分词方法、装置及电子设备中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将数据采集设备110设置于可以采集到数据的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
图2为本发明实施例提供的一种语句分词方法的流程图,该方法应用于电子设备,参见图2,该方法包括以下步骤:
S202:获取初始语句以及初始语句对应的第一分词集合;
其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句。
初始语句可以是病例信息中的语句,该病例信息可以是医生手写的,也可以是医生通过输入设备输入到电子设备中的电子病例,如果是医生手写的,则进一步地可以通过扫描等方式将纸质病例转换成电子病例,并提取出需要进行分词处理的初始语句。
在一些可能的实施方式中,上述第一分词集合可以通过分词工具和/或神经网络模型确定。例如,基于jieba分词工具+词库的方式,对输入的初始语句进行分词,得到第一分词集合,每个分词结果中还包括了该词在初始语句中的索引位置,还可以基于HanLP进行分词,得到第一分词集合。
第一分词集合中不仅包括多个第一词语,还包括每个第一词语在初始语句中的起始位置和终止位置,例如,电子病例中的一段初始语句为:左上肢疼痛,经过分词处理后得到的第一分词集合中的一个第一词语:“疼痛”,在初始语句中的起始位置为3,终止位置为5。
S204:通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;
其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置。
正则表达式是一种可以很好地检索出符合某些特定表现形式(规则)的分词方法。本发明实施例,首先加载预编译好的正则表达式集,逐个地去匹配初始语句,即,如果有n个正则表达式就需要匹配初始语句n次,得到多个匹配结果。上述的匹配结果中可能存在交叉、包含的情况,为了处理这个问题,本发明实施例按照逆向最长匹配原则,筛选出符合条件的正则匹配结果result_reg1。
在通过本发明实施例提供的语句分词方法对初始语句进行分词之前,可以通过电子设备获取预设的正则表达式集合,该正则表达式集合可以预存在电子设备中,也可以是预存在其他设备中,在使用时通过电子设备直接获取。正则表达式集合中可以包括多个正则表达式,例如,可以包括用于识别日期的正则表达式、用于识别时间的正则表达式以及用于识别房间号的正则表达式。
通过正则表达式集合中的每个正则表达式,可以得到初始语句中与某一个或者某些正则表达式匹配的第二词语,例如,初始语句中包括了表征日期的第二词语:10月1日,表征时间的第二词语:下午3点,表征地点的第二词语:101CT诊室。
可以理解的是,第二分词集合中不仅包括多个第二词语,还包括每个第二词语在初始语句中的起始位置和终止位置。
S206:根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;
其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;
第一分词集合是基于现有的分词工具及词库确定得到的,第二分词集合是基于对数字的正则表达式识别得到的,第一分词集合和第二分词集合之间可能完全相同,也可能存在不同的词语,因此,为了使得最终的分词结果更加准确,需要将第一分词集合和第二分词集合结合,即针对第二分词集合中的每个第二词语,判断其是否满足预设的匹配规则,并根据匹配规则,对第二词语进行删除,或者将第一词语和第二词语进行合并的更新操作。具体的更新方法,将在下文详细描述,在此不再赘述。
S208:根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合。
其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
在得到更新后的第二分词集合后,需要根据第二分词集合中的每个第二词语,重新对初始语句进行分词,具体地,可以再次通过分词工具进行分词,也可以使用预先训练完毕的神经网络模型进行分词,将本次分词后的分词结果与第二分词集合结合,得到初始语句对应的目标分词集合。
本发明实施例提供的上述语句分词方法,通过预设的正则表达式,得到与实际应用场景更加匹配的第二分词集合,并根据第一分词集合对第二分词集合进行更新,并基于更新后的第二分词集合再次对初始语句进行分词,得到的目标分词集合在保留了原有分词结果的基础上,进一步根据正则表达式将特殊词语进行了优化,使得分词结果更准确。
由于第一次分词后,得到的第一分词集合中对于数字类的分词结果,例如时间、数字等,可能会存在错误分词的情况,为了保证分词结果能够更加准确,在上述实施例的基础上,本发明还提供了另一种语句分词方法的实施例,如图3所示,该方法具体包括:
S302:获取初始语句以及初始语句对应的第一分词集合;
S304:通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;
上述步骤和前述实施例的步骤相同,可以参考图2所示的实施例。
针对第一分词集合中的每个第一词语以及第二分词集合中的每个第二词语,分别执行以下判断:
S306:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系;
上述的第一分词集合,保证了词库中分词的准确性,但其中有可能将某些进行了错误的拆分。所以本步骤中利用第一分词集合中每个第一词语的边界以及第二分词集合中每个第二词语的边界来确定第一词语和第二词语的位置关系,其中,边界具体指词语在初始语句中的起始位置和终止位置,例如,第一词语的边界即为第一词语在初始语句中的起始位置和终止位置,第二词语的边界即为第二词语在初始语句中的起始位置和终止位置。例如,初始语句为:左上肢疼痛,那么经过分词后得到的第一分词集合中的一个第一词语:“疼痛”,在初始语句中的起始位置为3,终止位置为5。
在一些可能的实施方式中,可以按照如下的步骤确定第一词语和第二词语的位置关系:
(1)如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;
具体实现时,可以采用双指针的方式同时遍历第一分词集合和第二分词集合中的每个词语。例如,可以使用两个游标index1和index2分别指向第一分词集合和第二分词集合。同时遍历第一分词集合和第二分词集合中的词语,根据每个词语的起始位置和终止位置,可以知道当前的第二词语在当前的第一词语的左侧还是右侧,如果第一词语的终止位置小于第二词语的起始位置,确定第一词语与当前第二词语没有交集。继续将指针分别下移,进行下一个第一词语和第二词语的判断。这种双指针同时遍历的方式的时间复杂度较低,为O(n)。
(2)如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;
具体地,在一些可能的实施方式中,当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:
当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,
当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或者,
当前第一词语的起始位置小于当前第二词语的起始位置且当前第一词语的终止位置大于当前第二词语的终止位置。
(3)如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;
(4)如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等。
S308:根据位置关系以及预设匹配规则,对当前第二词语进行更新;
其中,预设匹配规则为:
(1)如果当前第一词语包含当前第二词语,删除当前第二词语;
预设匹配规则是在第一分词集合和第二分词集合中选取更准确的分词结果,用准确的分词结果去替换不准确的分词结果,因此,如果当前第一词语包含当前第二词语,说明当前第二词语不准确,仍然以第一分词集合中的结果为准,那么就在第二分词集合中删除当前第二词语。
(2)如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
如果当前的第二词语与当前的第一词语端点相交,例如,第二词语的终止位置等于第一词语的起始位置,或者第二词语的起始位置等于第一词语的终止位置,那么将当前第一词语和当前第二词语合并。例如,当前第一词语为“3月4日”,当前第二词语为“上午”,当前第一词语的终止位置等于当前第二词语的起始位置,且,当前第一词语和当前第二词语均表征时间,而同时是时间的一般合并起来也是时间,因此,将当前第一词语和当前第二词语首尾相接得到合并词语:3月4日上午,将合并后的词语更新为当前第二词语,并且同时更新当前第二词语的起始位置和终止位置,使得对于时间的变量分词结果更加准确。
在一些示例中,如果当前第一词语和当前第二词语的起始位置和终止位置都相等,说明当前第一词语等于当前第二词语,那么这两个分词结果都是准确的,因此,保留当前第二词语,不对其进行更新。
在另一些示例中,如果当前第一词语和当前第二词语的位置关系表征的是当前第二词语包含当前第一词语,那么说明当前第二词语的分词结果更加准确,保留当前第二词语,不对其进行更新。
S310:根据更新后的第二分词集合,对初始语句进行分割,得到子句集合;
在得到更新后的第二分词集合后,相当于得到了针对数字类型的词语的准确的分词结果,那么,将初始语句根据第二分词集合进行分割,得到子句集合。具体地,可以根据第二分词集合中每个第二词语的起始位置和终止位置,将初始语句分割成多个子句。
S312:对子句集合中的每个子句进行分词处理,得到第三分词集合;其中,分词处理为通过分词工具和/或神经网络模型对子句进行分词;
针对于每个子句,再次进行分词处理,得到第三分词集合。可以理解的是,确定第三分词集合的过程可以采用与确定第一分词集合的工具相同的分词工具,也可以采用不同的分词工具,还可以是采用预先训练的神经网络进行分词,本发明对第三分词集合的确定方法不进行限定。
S314:根据更新后的第二分词集合中的每个第二词语的起始位置和终止位置,以及第三分词集合中的每个第三词语的起始位置和终止位置,将第二词语以及第三词语进行组合,得到目标分词集合。
最终,将第二分词集合和第三分词集合按照每个词语的起始位置和终止位置进行组合,得到目标分词集合。
上述实施例中提供的技术方案,使用了预编译后的正则表达式集,既保证了匹配的时间和效率,也解决了初始语句中可变量的分词问题。同时采用jieba+词库的分词结果筛选正则中的分词结果,防止正则表达式将原文中本原本正确的分词结果错误切分出去,如检验名称“碘131”里面就涉及到数字。最终子句文本也采用了分词工具进行分词的方式,保留了词库分词的准确性。
基于上述方法实施例,本发明实施例还提供一种语句分词装置,参见图4所示,该装置包括:
获取模块402,用于获取初始语句以及初始语句对应的第一分词集合;其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句;
第二分词集合确定模块404,用于通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置;
更新模块406,用于根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;
目标分词集合确定模块408,用于根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合;其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
本发明实施例提供的上述语句分词装置,通过预设的正则表达式,得到与实际应用场景更加匹配的第二分词集合,并根据第一分词集合对第二分词集合进行更新,并基于更新后的第二分词集合再次对初始语句进行分词,得到的目标分词集合在保留了原有分词结果的基础上,进一步根据正则表达式将特殊词语进行了优化,使得分词结果更准确。
上述根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合的过程,包括:针对第一分词集合中的每个第一词语以及第二分词集合中的每个第二词语,分别执行以下判断:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系;根据位置关系以及预设匹配规则,对当前第二词语进行更新。
上述根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系的过程,包括:如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等。
上述如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语的过程,包括:当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置且当前第一词语的终止位置大于当前第二词语的终止位置。
上述预设匹配规则为:如果当前第一词语包含当前第二词语,删除当前第二词语;如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
上述根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合的过程,包括:根据更新后的第二分词集合,对初始语句进行分割,得到子句集合;对子句集合中的每个子句进行分词处理,得到第三分词集合;其中,分词处理为通过分词工具和/或神经网络模型对子句进行分词;根据更新后的第二分词集合中的每个第二词语的起始位置和终止位置,以及第三分词集合中的每个第三词语的起始位置和终止位置,将第二词语以及第三词语进行组合,得到目标分词集合。
上述第一分词集合通过分词工具和/或神经网络模型确定。
本发明实施例提供的语句分词装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,上述装置的实施例部分未提及之处,可参考前述语句分词方法实施例中的相应内容。
本发明实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器501和存储器502,该存储器502存储有能够被该处理器501执行的计算机可执行指令,该处理器501执行该计算机可执行指令以实现上述语句分词方法。
在图5示出的实施方式中,该电子设备还包括总线503和通信接口504,其中,处理器501、通信接口504和存储器502通过总线503连接。
其中,存储器502可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口504(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线503可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器501读取存储器中的信息,结合其硬件完成前述实施例的语句分词方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述语句分词方法,具体实现可参见前述方法实施例,在此不再赘述。
本发明实施例所提供的语句分词方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种语句分词方法,其特征在于,所述方法应用于电子设备,所述方法包括:
获取初始语句以及所述初始语句对应的第一分词集合;其中,所述第一分词集合包括从所述初始语句中提取的多个第一词语,以及每个所述第一词语在所述初始语句中的起始位置和终止位置,所述第一词语的总和构成所述初始语句,所述初始语句为表征病人病情信息的语句;
通过预设的正则表达式集合中的每个正则表达式,分别对所述初始语句进行匹配处理,确定第二分词集合;其中,所述第二分词集合中包括从所述初始语句中提取的与所述正则表达式匹配的第二词语,以及每个所述第二词语在所述初始语句中的起始位置和终止位置;
根据所述第一分词集合以及预设匹配规则,对所述第二分词集合进行更新操作,得到更新后的第二分词集合;其中,所述预设匹配规则指示是否对所述第二分词集合中的第二词语进行删除和/或合并的更新操作;
根据更新后的所述第二分词集合,重新对所述初始语句进行分词,得到所述初始语句对应的目标分词集合;其中,所述目标分词集合中包含所述更新后的第二分词集合中的每个所述第二词语,所述目标分词集合中的所有词语的总和与所述初始语句相同;
根据所述第一分词集合以及预设匹配规则,对所述第二分词集合进行更新操作,得到更新后的第二分词集合的步骤,包括:
针对所述第一分词集合中的每个第一词语以及所述第二分词集合中的每个第二词语,分别执行以下判断:
根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定所述当前第一词语与所述当前第二词语之间的位置关系;
根据所述位置关系以及预设匹配规则,对所述当前第二词语进行更新;
根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定所述当前第一词语与所述当前第二词语之间的位置关系的步骤,包括:
如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;
如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;
如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;
如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等;
所述预设匹配规则为:
如果当前第一词语包含当前第二词语,删除当前第二词语;
如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
2.根据权利要求1所述的方法,其特征在于,如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语的步骤,包括:
当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:
当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,
当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或者,
当前第一词语的起始位置小于当前第二词语的起始位置 且当前第一词语的终止位置大于当前第二词语的终止位置。
3.根据权利要求1所述的方法,其特征在于,根据更新后的所述第二分词集合,重新对所述初始语句进行分词,得到所述初始语句对应的目标分词集合的步骤,包括:
根据更新后的所述第二分词集合,对所述初始语句进行分割,得到子句集合;
对所述子句集合中的每个子句进行分词处理,得到第三分词集合;其中,所述分词处理为通过分词工具和/或神经网络模型对所述子句进行分词;
根据更新后的所述第二分词集合中的每个所述第二词语的起始位置和终止位置,以及所述第三分词集合中的每个第三词语的起始位置和终止位置,将所述第二词语以及所述第三词语进行组合,得到目标分词集合。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述第一分词集合通过分词工具和/或神经网络模型确定。
5.一种语句分词装置,其特征在于,所述装置包括:
获取模块,用于获取初始语句以及所述初始语句对应的第一分词集合;其中,所述第一分词集合包括从所述初始语句中提取的多个第一词语,以及每个所述第一词语在所述初始语句中的起始位置和终止位置,所述第一词语的总和构成所述初始语句,所述初始语句为表征病人病情信息的语句;
第二分词集合确定模块,用于通过预设的正则表达式集合中的每个正则表达式,分别对所述初始语句进行匹配处理,确定第二分词集合;其中,所述第二分词集合中包括从所述初始语句中提取的与所述正则表达式匹配的第二词语,以及每个所述第二词语在所述初始语句中的起始位置和终止位置;
更新模块,用于根据所述第一分词集合以及预设匹配规则,对所述第二分词集合进行更新操作,得到更新后的第二分词集合;其中,所述预设匹配规则指示是否对所述第二分词集合中的第二词语进行删除和/或合并的更新操作;
目标分词集合确定模块,用于根据更新后的所述第二分词集合,重新对所述初始语句进行分词,得到所述初始语句对应的目标分词集合;其中,所述目标分词集合中包含所述更新后的第二分词集合中的每个所述第二词语,所述目标分词集合中的所有词语的总和与所述初始语句相同;
更新模块,用于针对所述第一分词集合中的每个第一词语以及所述第二分词集合中的每个第二词语,分别执行以下判断:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定所述当前第一词语与所述当前第二词语之间的位置关系;根据所述位置关系以及预设匹配规则,对所述当前第二词语进行更新;
更新模块,用于如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等;
所述预设匹配规则为:如果当前第一词语包含当前第二词语,删除当前第二词语;如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111339519.9A CN113988067B (zh) | 2021-11-12 | 语句分词方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111339519.9A CN113988067B (zh) | 2021-11-12 | 语句分词方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113988067A CN113988067A (zh) | 2022-01-28 |
CN113988067B true CN113988067B (zh) | 2024-06-25 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729314A (zh) * | 2017-09-29 | 2018-02-23 | 东软集团股份有限公司 | 一种中文时间识别方法、装置及存储介质、程序产品 |
CN111027319A (zh) * | 2019-10-30 | 2020-04-17 | 平安科技(深圳)有限公司 | 自然语言时间词的解析方法、装置和计算机设备 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729314A (zh) * | 2017-09-29 | 2018-02-23 | 东软集团股份有限公司 | 一种中文时间识别方法、装置及存储介质、程序产品 |
CN111027319A (zh) * | 2019-10-30 | 2020-04-17 | 平安科技(深圳)有限公司 | 自然语言时间词的解析方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN110909725A (zh) | 识别文本的方法、装置、设备及存储介质 | |
WO2022218186A1 (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN110705302B (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN111459967A (zh) | 结构化查询语句生成方法、装置、电子设备及介质 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
CN111985241A (zh) | 医学信息查询方法、装置、电子设备及介质 | |
CN112199951A (zh) | 一种事件信息生成的方法及装置 | |
CN109284497B (zh) | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN113988067B (zh) | 语句分词方法、装置及电子设备 | |
CN115544214B (zh) | 一种事件处理方法、设备及计算机可读存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
US20230023636A1 (en) | Methods and systems for preparing unstructured data for statistical analysis using electronic characters | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN111507109A (zh) | 电子病历的命名实体识别方法及装置 | |
CN113342977B (zh) | 发票图像分类方法、装置、设备及存储介质 | |
CN113988067A (zh) | 语句分词方法、装置及电子设备 | |
CN113282218A (zh) | 多维报表生成方法、装置、设备及存储介质 | |
CN113282837A (zh) | 事件分析方法、装置、计算机设备及存储介质 | |
CN114121195A (zh) | 电子病历的分词方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |