CN112802569A - 一种语义信息的获取方法、装置、设备及可读存储介质 - Google Patents

一种语义信息的获取方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112802569A
CN112802569A CN202110162371.XA CN202110162371A CN112802569A CN 112802569 A CN112802569 A CN 112802569A CN 202110162371 A CN202110162371 A CN 202110162371A CN 112802569 A CN112802569 A CN 112802569A
Authority
CN
China
Prior art keywords
word
word set
level
target
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110162371.XA
Other languages
English (en)
Other versions
CN112802569B (zh
Inventor
马宇辰
王硕
王飞
胡可云
陈联忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiahesen Health Technology Co ltd
Original Assignee
Beijing Jiahesen Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiahesen Health Technology Co ltd filed Critical Beijing Jiahesen Health Technology Co ltd
Priority to CN202110162371.XA priority Critical patent/CN112802569B/zh
Publication of CN112802569A publication Critical patent/CN112802569A/zh
Application granted granted Critical
Publication of CN112802569B publication Critical patent/CN112802569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种语义信息的获取方法、装置、设备及可读存储介质,获取待处理词的分词序列,分词序列由待处理词的分词按照在待处理词中的排序构成,依据分词的预设级别,获取词集合序列,执行迭代流程,直至词集合序列中的词集合的数量为1个,将词集合序列中的词集合作为待处理词的语义信息。由于分词的预设级别依据分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则第一分词的级别越高,第一分词和第二分词均为任意一个分词,所以,按照词的级别和词在待处理词中的位置迭代更新词集合序列,当词集合序列中的词集合的数量为1个时,词集合中包括的每一词均是按照修饰关系组合得到,提高了语义信息的准确度。

Description

一种语义信息的获取方法、装置、设备及可读存储介质
技术领域
本申请涉及文本处理技术领域,尤其涉及一种语义信息的获取方法、装置、设备及可读存储介质。
背景技术
医嘱为医生根据病情和治疗的需要对病人在饮食、用药、化验、治疗等方面的指示。目前在对医院数据的治理过程中,涉及对医嘱的检查,目的在于检查医嘱的内容是否合理。由于,一条医嘱通常包括人工记录的由多个词组成的复合词,在实际应用中,需要对医嘱进行语义识别得到能够表达医嘱完整语义的文本内容。
现有技术中,以知识库词典为标准,将复合词进行分词得到分词组合,其中,分词组合包括至少一个分词,每一分词均属于知识库词典。进一步,将分词组合作为医嘱的语义信息,用于医嘱的检查或分析。但是,通过分词得到的分词组合不能完全表达医嘱的完全语义,也即,现有技术获取的语义信息的准确度低。
发明内容
本申请提供了一种语义信息的获取方法、装置、设备及可读存储介质,目的在于提高语义信息的准确度,如下:
一种语义信息的获取方法,包括:
获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
将所述词集合序列中的词集合作为所述待处理词的语义信息。
可选地,分词的预设级别为所述分词所属的分词词典的预设级别;
任一级别的分词词典满足第一条件,所述第一条件包括:属于同一个分词词典的分词之间不存在修饰关系;
相邻级别的两个分词词典满足第二条件,所述第二条件包括:第一概率不低于第二概率,所述第一概率为第三分词作为第四分词的修饰词的概率;所述第二概率为所述第四分词作为所述第三分词的修饰词的概率,所述第三分词为较低级别的词典中的任意一个分词,所述第四分词为较高级别的词典中的任意一个分词;
最高级别的分词词典满足第三条件,所述第三条件包括:第五分词是词尾词的概率大于预设数值,所述第五分词为所述最高级别的分词词典中的任一分词。
可选地,依据所述分词的预设级别,获取词集合序列,包括:
若在所述分词序列中,第一序位的分词的级别为最高级别,将所述第一序位的分词作为所述分词序列的最后一个分词;
若目标分词的级别与相邻分词的级别不同,将目标分词作为一个词集合,所述目标分词为所述分词序列中任一分词;
若所述目标分词的级别与相邻分词的级别相同,将目标分词和相邻分词组成一个词集合;
将至少两个词集合按照在所述分词序列中的排序组成所述词集合序列。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,包括:
若所述第一目标词集合和所述第二目标词集合的级别相同,使用所述第一目标词集合和所述第二目标词集合的并集代替所述第一目标词集合和所述第二目标词集合,所述并集的级别等于所述第一目标词集合的级别;
若所述第一目标词集合和所述第二目标词集合的级别不相同,使用合成词集合代替所述第一目标词集合和所述第二目标词集合,所述合成词集合包括合成词,任意一个所述合成词由第一词和作为所述第一词的修饰词的第二词组成,所述第一词属于所述第一目标词集合,所述第二词属于所述第二目标词集合;所述合成词集合的级别等于所述第二目标词集合的级别。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,还包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高至少两个级别,将所述第一目标词集合的级别调低一级。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,判断所述第一词和所述第二词是否存在修饰关系;
若是,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词;
若否,将所述第二词作为所述合成词集合中的词。
一种语义信息的获取装置,包括:
分词序列获取模块,获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
词集合序列获取模块,用于依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
迭代流程执行模块,用于执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
语义信息获取模块,用于将所述词集合序列中的词集合作为所述待处理词的语义信息。
一种语义信息的获取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语义信息的获取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语义信息的获取方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的语义信息的获取方法、装置、设备及可读存储介质,获取待处理词的分词序列,依据所述分词的预设级别,获取词集合序列,执行迭代流程,直至词集合序列中的词集合的数量为1个,将词集合序列中的词集合作为待处理词的语义信息。本方法中,分词序列由待处理词的分词按照在待处理词中的排序构成,且分词的预设级别依据分词之间的修饰关系确定,由于词集合序列中的词集合的级别依据词集合中包括的各个词的级别确定,所以依据分词的预设级别得到的词集合序列中,两个相邻的词集合的级别关系指示两个词集合中的词的修饰关系。又由于,第一目标词集合为词集合序列中级别最高且序位最后的词集合,第二词目标词集合位于第一目标词集合的前一序位,所以依据第一目标词集合和第二目标词集合的级别之间的关系,更新的词集合序列,直至词集合序列中的词集合的数量为1个。显然,该1个词集合中的每一合成词的获取过程中,均按照词集合的序位对相邻词集合中的词进行组合,由于,相邻词集合中的词不一定在待处理词中的位置为相邻,又由于,该1个词集合中包括的每一词均是按照修饰关系组合得到,因此,将该1个词集合中的词既可以指示待处理词中相邻词的修饰关系,也指示待处理词中不相邻的词间的修饰关系,所以,将该1个词集合作为语义信息的准确度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语义信息的获取方法的具体实施方式的流程示意图;
图2为本申请实施例提供的一种迭代流程的获取方法的流程示意图;
图3为本申请实施例提供的一种语义信息的获取方法的流程示意图;
图4为本申请实施例提供的一种语义信息的获取装置的结构示意图;
图5为本申请实施例提供的一种语义信息的获取设备的结构示意图。
具体实施方式
经发明人研究发现,由于医嘱通常包括大量的手动录入且比较复杂的复合词,而汉语词汇多级修饰的特点是在复合中,词按照修饰关系(包含关系或者固定的逻辑顺序)修饰到最后的词尾,所以,相邻词之间可能存在修饰关系,不相邻的词之间可能也存在修饰关系,且,复合词中的词之间的修饰关系的类型可以是一对一、一对多、和/或多对多,以复合词C:“足血管、神经、肌腱探查术坏死组织清创术”为例,其中包括词之间的修饰关系:
一对一:[足]|[血管]
一对多:[足]|[血管,神经,肌腱]
多对多:[上肢,下肢]|[血管,神经,肌腱]
因此,以知识库词典为标准,将复合词C进行分词得到分词组合:“足血管”“神经”“肌腱探查术”和“坏死组织清创术”,没有将上述修饰关系全部识别出来,这是由于,分词仅仅将连续的具有修饰关系的多个词识别出来,显然,对于不相邻的具有修饰关系的词不能通过分词得到,所以,分词组合作为语义信息的准确度低。
经过总结分析大量的复合词,得到结论:复合词中的结尾词是操作类词,例如手术类别(探查术、矫正术、切除术、吸脂术、碎石术等)或者检查类别(超声、CT、x线等)。而作为复合词中的词尾词与复合词中与词尾词不相邻的词具有修饰关系的概率大。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的语义信息的获取方法应用于但不限于获取待处理词的语义信息,需要说明的是,本实施例以待处理词为医嘱中的复合词为例,在实际应用中,待处理词不限于不限于医嘱中的复合词,还可以为其他场景中的词,例如,医学教案、医学书籍中的复合词。
图1为本申请实施例提供的一种语义信息的获取方法的具体实现流程示意图,如图1所示,具体可以包括下述S101~S107。
S101、依据预设的全语料词库,构建词典库。
本实施例中,词典库包括N个级别的分词词典,任一分词词典记为i级分词词典,i级分词词典的级别高于i+1级分词词典,其中0≤i≤N-1,且N大于等于2。例如,N=3,分词词典包括0级分词词典、1级分词词典、以及2级分词词典。其中,2级分词词典的级别最高,0级分词词典的级别最低。
本实施例中,全语料词库可以为在预设领域中的所有词,例如,以现有技术中的知识库词典为全语料词库。
具体地,依据预设的全语料词库,构建词典库的方法为:依据修饰规则,划分全语料词库中的词,得到至少两个分词词典。其中,修饰规则依据历史医嘱以及历史医嘱的语义信息预先配置,包括但不限于第一条件~第三条件。
第一条件、属于同一级别的分词词典的词之间,不具有修饰关系。
具体地,修饰关系至少包括包含关系,例如,“足”和“血管”具有包含关系,在复合词“足血管”中,“足”可以作为“血管”的修饰词,所以,“足”和“血管”分属于不同的分词词典。
本实施例中,判断第一分词和第二分词是否具有修饰关系的方法包括:第一分词是第二分词的修饰词的概率等于0,且第二分词是第一分词的修饰词的概率等于0。本实施例中,依据历史语义信息计算各个概率。
第二条件、相邻级别的两个分词词典,将低一级别的分词词典中的词,在历史医嘱的语义信息中是高一级别的修饰词的概率记为第一概率,将高一级别的分词词典中的词,在历史医嘱的语义信息中是低一级别的修饰词的概率记为第二概率,第一概率大于第二概率。
需要说明的是,记任一词为目标词,目标词的修饰词指的是用于修饰目标词的词,例如,在复合词“足血管”中,“足”是“血管”的修饰词。
进一步需要说明的是,第一目标词在历史医嘱的语义信息中是第二目标词的修饰词的概率的获取方法可以参见现有技术。
本实施例中,以词典库包括3个级别的分词词典为例,分别为0级分词词典、1级分词词典、2级分词词典,如下:
0级分词词典包括:探查术、切除术、吸脂术、和清创术等。
1级分词词典包括:血管、神经、肌腱、和坏死组织等。
2级分词词典包括:足、上肢、和下肢等。
第三条件、最高级的分词词典(0级分词词典)包括的词在历史医嘱的语义信息中属于词尾词的概率大于第一预设阈值。
本实施例中,记最低级的分词词典(0级分词词典)包括的词为第一类词,第一类词至少包括全语料词库中的所有操作类词。
例如,0级分词词典包括:探查术、切除术、吸脂术、清创术等手术类别,以及超声、CT、x线等检查类别。
需要说明的是,每一词在历史医嘱的语义信息中属于词尾词的概率的计算方法参见现有技术,例如,记所有包括词的复合词的数量为第一数值,将词出现在复合词词尾的次数除以第一数值,得到词在历史医嘱的语义信息中属于词尾词的概率。
由上可知,0级分词词典的级别高于1级分词词典,1级分词词典的级别高于2级分词词典,三个级别的分词词典中,任一分词词典中的词之间不具有修饰关系。属于2级分词词典的词是属于1级分词词典的词的概率大于属于1级分词词典的词是属于2级分词词典的词的概率。
需要说明的是,构建得到的词典库可以根据实际情况更新。
S102、根据相邻级别的分词词典,构建对应词词典。
本实施例中,对应词词典包括多个对应关系,每一对应关系包括高级词和低级词,其中,高级词属于高一级别的分词词典,低级词属于低一级别的分词词典,对应关系中的高级词和低级词满足:在历史医嘱的语义信息中,低级词作为高级词的修饰词的概率为0。也即,低级词不能作为高级词的修饰词。
例如,“吸脂术”和“血管”互为修饰词的概率等于0,所以,对应词词典包括“吸脂术-血管”和“血管-吸脂术”。
S103、依据词典库,将复合词分词得到分词序列。
本实施例中,分词序列包括至少两个分词,且分词按照在复合词中的位置排序。
需要说明的是,每个分词属于词典库中的一个分词词典,将分词属于的分词词典的级别作为分词的级别。
S104、对分词序列预处理得到词集合序列。
本实施例中,词集合序列中包括至少两个词集合,词集合由至少一个分词构成,若词集合包括多个分词,多个分词为相邻且级别相同的分词,词集合的级别依据词集合中的词的级别确定。
可选地,预处理至少包括:
1、若分词序列中的第一个分词的级别为0(最高级别),则将第一个分词移动至最后一位。
例如,复合词为:“CT平扫+增强:颈椎、胸椎、腰”,或“CT平扫+增强(颈椎、胸椎、腰)”,可见由于复合词为倒装结构,经过分词得到的初始分词序列中,第一个分词为“CT平扫”,属于0级分词词典,所以将分词“CT平扫”移动至初始分词序列的最后一位。
2、若相邻的两个分词属于同一级别,将相邻的两个分词合并得到词集合,将相邻的两个分词的级别作为词集合的级别。
3、若分词与相邻的分词不属于同一级别,将分词分别作为词集合,词集合的级别即为分词的级别。
S105、执行第一次序列更新流程。
本实施例中,第一次序列更新流程中,将级别0作为级别i,将词集合序列作为待处理词集合序列,执行图2所示的序列更新流程,得到第一次序列更新流程的结果词集合序列。
S106、若目标序列更新流程的结果词集合序列包括至少两个词集合,执行下一次序列更新流程。
具体地,将i更新为i+1,将结果词集合序列作为下一次序列更新流程的待处理词集合序列,执行目标序列更新流程的下一次序列更新流程。
需要说明的是,任意一次序列更新流程中的合并流程参见图2所示的流程,例如,第一次序列更新流程时,i=0,第n次序列更新流程时,i=n-1。
S107、若目标序列更新流程的结果词集合序列只包括一个词集合,结束序列更新流程,将目标序列更新流程的结果词集合序列中的将词集合作为复合词的语义信息。
综上,本实施例从最高级别开始,从最高级别到最低级别逐级别迭代执行图所示的序列更新流程,得到只包括一个词集合的结果词集合序列,将词集合作为复合词的语义信息。
需要说明的是,本方法在第一目标词集合和第二目标词集合的级别相同的情况下,使用第一目标词集合和第二目标词集合的并集代替第一目标词集合和第二目标词集合。由此,将位置靠后、级别低的词集合中的词合并至位置靠前的同级别的词集合中。在第一目标词集合和第二目标词集合的级别不相同的情况下,使用合成词集合代替第一目标词集合和第二目标词集合。其中,合成词集合包括合成词,任意一个合成词由第一词和作为第一词的修饰词的第二词组成,可见,本方法在第一词和第二词具有修饰关系的情况下,按照修饰关系得到两个词的合成词。因此,作为复合词的语义信息的词集合中的词既可以指示待处理词中相邻词的修饰关系,也指示待处理词中不相邻的词间的修饰关系,所以,将复合词的语义信息的准确度高。
图2为本实施例提供的序列更新流程的流程示意图,如图2所示,任一序列更新流程包括S201~S207,如下:
S201、按照待处理词集合序列中词集合的顺序,从序位最后的词集合开始,查找属于级别i的词集合,作为第一目标词集合。
需要说明的是,第一次序列更新流程中,待处理词集合序列为词集合序列,其他序列更新流程中的待处理词集合序列为前一次序列更新流程的结果词集合序列。
S202、获取第一目标词集合的级别减去第二目标词集合的级别的差值,作为第一差值。
本实施例中,第二目标词集合为位于第一目标词集合之前的词集合。
需要说明的是,第一差值指示第一目标词集合和第二目标词集合的级别关系,例如,第一差值等于0,表示第一目标词集合和第二目标词集合的级别相同,第一差值不等于0,表示第一目标词集合和第二目标词集合的级别不相同,具体地,第一差值等于1,表示第一目标词集合比第二目标词集合高于一个级别,第一差值等于或小于-2,表示第一目标词集合比第二目标词集合高至少两个级别。
S203、若第一差值等于-1,则,依据第一目标词集合和第二目标词集合获取第一类词集合。
需要说明的是,第一类词集合用于在结果词序列中替代第一目标词集合和第二目标词集合的词集合,第一类词集合的级别为第一目标词集合的级别加1。
A1、若第一目标词集合中的词与第二目标词集合中的词不属于同一对应关系,则将第一目标词集合中的词与第二目标词集合中的每一词,按照级别高的词在前,级别低的词在后(也即第二目标词集合中的词在前,作为第一目标词集合中的词的修饰词),组合得到合成词,将合成词作为第一类词集合中的词。
需要说明的是,在级别i为最高级别时,词包括分词,在级别i不为最高级别时,词包括分词和/或合成词,合成词由至少两个分词构成。
A2、若第一目标词集合中的词与第二目标词集合中的词属于同一对应关系,将第二目标词集合中的词作为第一类词集合中的词。
本实施例中,第一类词集合的级别为第二目标词集合的级别。
需要说明的是,第一目标词集合中的词与第二目标词集合中的词属于同一对应关系指的是:合成第一目标词集合中的词的分词中,位于合成词词首的分词,与合成第二目标词集合中的词的分词中,位于合成词词尾的分词属于同一对应关系。
例如,合成词“上肢血管”由分词“上肢”和“血管”合成得到,“血管”位于“上肢血管”的词尾,“抽脂术”的级别属于最高级别,所以,当第一目标词集合中的词为“抽脂术”,第二目标词集合中的词为“上肢血管”,将“上肢血管”直接作为第一类词集合中的词,不与“抽脂术”组合成合成词。
可见,在第一目标词集合和第二目标词集合的级别不相同且差值为-1的情况下,使用合成词集合(也即第一类词集合)代替第一目标词集合和第二目标词集合。由于,合成词集合包括合成词,任意一个合成词由第一词和作为第一词的修饰词的第二词组成。也即在合成词按照两个词的修饰关系得到,且合成词中的两个词来自相邻的两个集合,但是在待处理词中的位置可以不相邻,所以,合成词在满足修饰关系的同时,表达待处理词的语义的准确度高。
进一步,当第一目标词集合中的词与第二目标词集合中的词属于同一对应关系时,第二目标词集合中的词直接加入第一类词集合,避免出现不符合逻辑的合成词,进一步提高了表达待处理词的语义的准确度。
S204、若第一差值小于-1,将第一目标词集合作为第二类词集合,第二类词集合级别为第一目标词集合的级别加1。
需要说明的是,第二类词集合与目标词集合的词相同,但是级别不同。
在第一差值小于-1的情况下,表示第一目标词集合的词和第二目标词集合的词的不属于级别相邻的分词词典,词之间不具有直接的修饰关系,所以将第一目标词集合级别加1,以避免生成逻辑性差的合成词。
S205、若第一差值等于0,将第一目标词集合和第二目标词集合的并集作为第三类词集合。
本实施例中,第三类词集合的级别为第一目标词集合的级别。
需要说明的是,第三类词集合用于在结果词序列中替代第一目标词集合和第二目标词集合的词集合。
需要说明的是,第一目标词集合和第二目标词集合的并集包括第一目标词集合中的词和第一目标词集合中的词。
在第一差值等于0的情况下,表示第一目标词集合的词和第二目标词集合的词不具有修饰关系,但是第二目标词集合中的词可以与第一目标词集合之前的词集合中的词具有修饰关系,所以,将第一目标词集合和第二目标词集合合并,使得第二目标词集合中的词可以和在该词之前且具有修饰关系的词组合得到合成词。
S206、更新待处理词集合序列,若待处理词集合序列中包括级别为i的词集合,返回执行S201。
S207、若待处理词集合序列中不包括级别为i的词集合,将更新后的待处理词集合序列作为本次序列更新流程的结果词集合序列。
需要说明的是,当待处理词集合序列中不包括级别为i的词集合,也即将级别为i的词集合全部更新为第一类词集合或第二类词集合。
本实施例中,以待处理词为复合词C“上肢或下肢吸脂术血管、神经、肌腱探查术坏死组织清创术”为例,按照图1所示的流程获取复合词C的语义信息的过程如B1~B5所示。
本实施例中,词典库包括0级分词词典、1级分词词典、和2级分词词典,其中,0级分词词典包括:探查术、切除术、吸脂术、和清创术等。1级分词词典包括:血管、神经、肌腱、和坏死组织等。2级分词词典包括:足、上肢、和下肢等。需要说明的是,0级分词词典为最高级别的分词词典,包括的分词属于全语料词库中的所有操作类词。1级分词词典包括的分词属于人体组织,2级分词词典包括的分词属于人体部位或人体器官。
获取复合词C的语义信息的流程包括:
B1、依据词典库对复合词C进行分词和预处理,得到词集合序列T1,如表1所示。
表1、词集合序列T1
Figure BDA0002937100390000141
B2、以T1为第一次序列更新流程中的待处理词集合序列T11,执行第一次序列更新流程,包括:
B21、将属于级别0的词集合[清创术],作为第一目标词集合,位于[清创术]之前的词集合[坏死组织]作为第二目标词集合。
第一目标词集合的级别减去第二目标词集合的级别为0-1=-1,且,“清创术”和“坏死组织”不属于同一对应关系。
所以,将分词“清创术”和“坏死组织”组合得到合成词“坏死组织清创术”,由此得到第一类词集合C11[坏死组织清创术]。
B22、将属于级别0的词集合[探查术],作为第一目标词集合,位于[探查术]之前的词集合[血管,神经,肌腱]作为第二目标词集合。
第一目标词集合的级别减去第二目标词集合的级别为0-1=-1,且,“血管”和“探查术”不属于同一对应关系,“神经”和“探查术”不属于同一对应关系,“神经”和“探查术”不属于同一对应关系。
所以,将分词“血管”和“探查术”得到合成词“血管探查术”,将分词“神经”和“探查术”组合得到合成词“神经探查术”,将分词“神经”和“探查术”组合得到合成词“肌腱探查术”,由此得到第一类词集合C12[血管探查术,神经探查术,肌腱探查术]。
B23、将属于级别0的词集合[吸脂术],作为第一目标词集合,位于[探查术]之前的词集合[上肢,下肢]作为第二目标词集合。
第一目标词集合的级别减去第二目标词集合的级别为0-2=-2,所以,将第一目标词集合的级别加1,得到第二类词集合C21[吸脂术]。
B24、将第一类词集合C11和第一类词集合C12和第三类词集合C21的级别设置为1,也即第一目标词集合的级别加1。
更新待处理词集合序列T11,得到结果词序列T12,如表2所示。
表2、结果词序列T12
Figure BDA0002937100390000151
B3、以T12为第二次序列更新流程中的待处理词集合序列T21,执行第二次序列更新流程,包括:
B31、第一目标词集合[坏死组织清创术]的级别减去第二目标词集合[血管探查术,神经探查术,肌腱探查术]的级别等于0,所以将[坏死组织清创术]和[血管探查术,神经探查术,肌腱探查术]的并集C31[坏死组织清创术,血管探查术,神经探查术,肌腱探查术]作为第三类词集合,且C31的级别为第一目标词集合的级别,也即级别1。
B32、第一目标词集合[坏死组织清创术,血管探查术,神经探查术,肌腱探查术]的级别减去第二目标词集合[吸脂术]的级别等于0,所以将并集C32[坏死组织清创术,血管探查术,神经探查术,肌腱探查术,吸脂术]作为第三类词集合,C32的级别为第一目标词集合的级别,也即级别1。
需要说明的是,B31~B32可以合并为一个步骤,也即将T21中级别为1且连续的三个词集合直接合并为并集C32,得到表3所示的分词序列。
表3、分词序列
Figure BDA0002937100390000152
B33、第一目标词集合C32的级别减去第二目标词集合[上肢,下肢]的级别等于-1。“上肢”和“下肢”均不与第一目标词集合中的任意词属于同一对应关系,将“上肢”和“下肢”分别与第二目标词集合中每一词组合得到多个合成词。
由多个合成词组成第一类词集合C13,第一类词集合C13的级别等于第一目标词集合的级别加1。
B34、更新T21得到第二次序列更新流程的结果词集合序列T22,如表4所示。
表4、结果词集合序列T22
Figure BDA0002937100390000161
B5、第二次序列更新流程的结果词集合序列T32只包括一个词集合,将词集合C13中的词作为复合词C的语义信息。
也即复合词C的语义信息为“上肢吸脂术,上肢血管探查术,上肢神经探查术,上肢肌腱探查术,上肢坏死组织清创术,下肢吸脂术,下肢血管探查术,下肢神经探查术,下肢肌腱探查术,下肢坏死组织清创术”。
可见,依据图1所示的流程,本方法得到的复合词C的语义信息中的各个合成词均按照词之间的修饰关系得到,且语义信息包括由不相邻的分词组合得到的多个合成词,语义信息能够准确的表达该复合词C的语义。
需要说明的是,图1所示的流程仅为本申请实施例提供的语义信息的获取方法的一种可选的具体实现方式,本申请还包括其它的具体实现方式。
例如,另一种可选的具体实现方式中的序列更新流程中,与图2所示的流程的区别在于:1、包括步骤:判断待处理词集合序列中是否存在连续词集合,连续词集合为级别相同且相邻的至少两个词集合,若存在,将级别相同的相邻的至少两个词集合的并集作为第四类词集合,用于在更新待处理词集合序列时替代连续词集合,将连续词集合的级别作为第四类词集合的级别。2、不包括步骤S205。
再例如,S101、依据预设的全语料词库,构建词典库的实现方式还包括步骤:1、依据预设的包含关系构建分词词典,预设的包含关系依据医学科学领域中,人体组织器官的包含关系预先配置。2、获取分词词典中各分词的同义词,将同义词加入分词词典。需要说明的时,获取同义词的方法参见现有技术。
综上所述,本申请实施例提供的语义信息的获取方法可以概括为图3所示的一种语义信息的获取方法流程示意图,如图3所示,本方法可以包括S301~S304。
S301、获取待处理词的分词序列。
本实施例中,分词序列由待处理词的分词按照在待处理词中的排序构成。
例如,待处理词为复合词C,分词序列为“上肢/下肢/吸脂术/血管/神经/肌腱/探查术/坏死组织/清创术”。
需要说明的是,获取分词序列的方法包括多种,例如,按照预设的词典库,将待处理词分词得到多个分词,将分词按照在待处理词中的顺序排列生成分词序列。
S302、依据分词的预设级别,获取词集合序列。
本实施例中,分词的预设级别依据分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则第一分词的级别越高,第一分词和第二分词均为任意一个分词。
本实施例中,词集合序列中的每个词集合中包括至少一个分词,若词集合中包括两个或以上分词,则词集合包括的分词的级别相同且在分词序列中相邻,例如,表1所示的词集合系列。
需要说明的是,分词的预设级别的一种可选的获取方法为:获取分词所属于分词词典的级别,将分词词典的级别作为分词的级别即可。具体地,预先根据词典库中词之间的修饰关系获取多个级别的分词词典。
其中,任一级别的分词词典满足第一条件,第一条件包括:属于同一级别的分词词典的词之间,不具有修饰关系。
相邻级别的两个分词词典满足第二条件,第二条件包括:第一概率不低于第二概率,第一概率为第三分词作为第四分词的修饰词的概率,第二概率为第四分词作为第三分词的修饰词的概率。其中,第三分词为较低级别的词典中的任意一个分词,第四分词为较高级别的词典中的任意一个分词。
最高级别的分词词典满足第三条件,第三条件包括:第五分词是词尾词的概率大于预设数值,其中,第五分词为最高级别的分词词典中的任一分词。
需要说明的是,构建多个级别的分词词典的具体方法可以参见S101,在此不做赘述。
S303、执行迭代流程,直至词集合序列中的词集合的数量为1个。
本实施例中,迭代流程包括:
S1、将词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将第一目标词集合的前一序位的词集合第二目标词集合。
S2、依据第一目标词集合和第二目标词集合的级别之间的关系,更新词集合序列。其中,词集合序列中的词集合的级别依据词集合中包括的各个词的级别确定。
需要说明的是,S2的具体执行方法包括多种,可选的一种迭代流程的具体执行过程包括:
1、若第一目标词集合和第二目标词集合的级别相同,使用第一目标词集合和第二目标词集合的并集代替第一目标词集合和第二目标词集合,并集的级别等于第一目标词集合的级别。
例如,词集合序列如表2所示,级别最高且序位最后的词集合为级别为1且位于最后一位的词集合[坏死组织清创术],将[坏死组织清创术]作为第一目标词集合,将位于[清创术]之前的词集合[血管探查术,神经探查术,肌腱探查术]作为第二目标词集合,由于第一目标词集合和第二目标词集合级别相同,所以,将并集[血管探查术,神经探查术,肌腱探查术,清创术]替代第一目标词集合和第二目标词集合。
2、若第一目标词集合和第二目标词集合的级别不相同,使用合成词集合代替第一目标词集合和第二目标词集合,合成词集合包括合成词,任意一个合成词由第一词和作为第一词的修饰词的第二词组成,第一词属于第一目标词集合,第二词属于第二目标词集合。合成词集合的级别等于第二目标词集合的级别。
例如,词集合序列如表1所示,级别最高且序位最后的词集合为级别为0且位于最后一位的词集合[清创术],将[清创术]作为第一目标词集合,将位于[清创术]之前的词集合[坏死组织]作为第二目标词集合,由于,第一目标词集合和第二目标词集合的级别不相同,所以将“坏死组织”和“清创术”组合得到合成词“坏死组织清创术”,进一步得到合成词集合[坏死组织清创术],代替第一目标词集合和第二目标词集合。
可选地,若第一目标词集合和第二目标词集合的级别不相同,且第一目标词集合的级别比第二目标词集合的级别高至少两个级别,将第一目标词集合的级别调低一级。
若第一目标词集合和第二目标词集合的级别不相同,且第一目标词集合的级别比第二目标词集合的级别高一个级别,判断第一词和第二词是否存在修饰关系。若是,将第二词作为第一词的修饰词,组合第一词和第二词,得到合成词集合中的合成词。若否,将第二词作为合成词集合中的词。
S304、将词集合序列中的词集合作为待处理词的语义信息。
本实施例中,在词集合序列只包括一个词集合时,结束迭代流程,将词集合作为待处理词的语义信息。
例如,表4所示的词集合序列包括一个词集合,所以将词集合[上肢吸脂术,上肢血管探查术,上肢神经探查术,上肢肌腱探查术,上肢坏死组织清创术,下肢吸脂术,下肢血管探查术,下肢神经探查术,下肢肌腱探查术,下肢坏死组织清创术],作为待处理词C的语义信息。
由上述技术方案可以看出,本申请实施例提供的语义信息的获取方法,分词序列由待处理词的分词按照在待处理词中的排序构成,且分词的预设级别依据分词之间的修饰关系确定,由于词集合序列中的词集合的级别依据词集合中包括的各个词的级别确定,所以依据分词的预设级别得到的词集合序列中,两个相邻的词集合的级别关系指示两个词集合中的词的修饰关系。又由于,第一目标词集合为词集合序列中级别最高且序位最后的词集合,第二词目标词集合位于第一目标词集合的前一序位,所以依据第一目标词集合和第二目标词集合的级别之间的关系,更新的词集合序列,直至词集合序列中的词集合的数量为1个。显然,该1个词集合中的每一合成词的获取过程中,均按照词集合的序位对相邻词集合中的词进行组合,由于,相邻词集合中的词不一定在待处理词中的位置为相邻,又由于,该1个词集合中包括的每一词均是按照修饰关系组合得到,因此,将该1个词集合中的词既可以指示待处理词中相邻词的修饰关系,也指示待处理词中不相邻的词间的修饰关系,所以,将该1个词集合作为语义信息的准确度高。
图4示出了本申请实施例提供的一种语义信息的获取装置的结构示意图,如图4所示,该装置可以包括:
分词序列获取模块401,获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
词集合序列获取模块402,用于依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
迭代流程执行模块403,用于执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
语义信息获取模块404,用于将所述词集合序列中的词集合作为所述待处理词的语义信息。
可选地,分词的预设级别为所述分词所属的分词词典的预设级别;
任一级别的分词词典满足第一条件,所述第一条件包括:属于同一个分词词典的分词之间不存在修饰关系;
相邻级别的两个分词词典满足第二条件,所述第二条件包括:第一概率不低于第二概率,所述第一概率为第三分词作为第四分词的修饰词的概率;所述第二概率为所述第四分词作为所述第三分词的修饰词的概率,所述第三分词为较低级别的词典中的任意一个分词,所述第四分词为较高级别的词典中的任意一个分词;
最高级别的分词词典满足第三条件,所述第三条件包括:第五分词是词尾词的概率大于预设数值,所述第五分词为所述最高级别的分词词典中的任一分词。
可选地,词集合序列获取模块,用于依据所述分词的预设级别,获取词集合序列,包括:词集合序列获取模块具体用于:
若在所述分词序列中,第一序位的分词的级别为最高级别,将所述第一序位的分词作为所述分词序列的最后一个分词;
若目标分词的级别与相邻分词的级别不同,将目标分词作为一个词集合,所述目标分词为所述分词序列中任一分词;
若所述目标分词的级别与相邻分词的级别相同,将目标分词和相邻分词组成一个词集合;
将至少两个词集合按照在所述分词序列中的排序组成所述词集合序列。
可选地,迭代流程执行模块用于依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,包括:迭代流程执行模块具体用于:
若所述第一目标词集合和所述第二目标词集合的级别相同,使用所述第一目标词集合和所述第二目标词集合的并集代替所述第一目标词集合和所述第二目标词集合,所述并集的级别等于所述第一目标词集合的级别;
若所述第一目标词集合和所述第二目标词集合的级别不相同,使用合成词集合代替所述第一目标词集合和所述第二目标词集合,所述合成词集合包括合成词,任意一个所述合成词由第一词和作为所述第一词的修饰词的第二词组成,所述第一词属于所述第一目标词集合,所述第二词属于所述第二目标词集合;所述合成词集合的级别等于所述第二目标词集合的级别。
可选地,迭代流程执行模块用于依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,还包括:迭代流程执行模块具体用于:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高至少两个级别,将所述第一目标词集合的级别调低一级。
可选地,还包括第一词合成模块,用于:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词。
可选地,还包括第二词合成模块,用于:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,判断所述第一词和所述第二词是否存在修饰关系;
若是,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词;
若否,将所述第二词作为所述合成词集合中的词。
图5示出了该语义信息的获取设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种语义信息的获取方法的各个步骤,如下:
一种语义信息的获取方法,包括:
获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
将所述词集合序列中的词集合作为所述待处理词的语义信息。
可选地,分词的预设级别为所述分词所属的分词词典的预设级别;
任一级别的分词词典满足第一条件,所述第一条件包括:属于同一个分词词典的分词之间不存在修饰关系;
相邻级别的两个分词词典满足第二条件,所述第二条件包括:第一概率不低于第二概率,所述第一概率为第三分词作为第四分词的修饰词的概率;所述第二概率为所述第四分词作为所述第三分词的修饰词的概率,所述第三分词为较低级别的词典中的任意一个分词,所述第四分词为较高级别的词典中的任意一个分词;
最高级别的分词词典满足第三条件,所述第三条件包括:第五分词是词尾词的概率大于预设数值,所述第五分词为所述最高级别的分词词典中的任一分词。
可选地,依据所述分词的预设级别,获取词集合序列,包括:
若在所述分词序列中,第一序位的分词的级别为最高级别,将所述第一序位的分词作为所述分词序列的最后一个分词;
若目标分词的级别与相邻分词的级别不同,将目标分词作为一个词集合,所述目标分词为所述分词序列中任一分词;
若所述目标分词的级别与相邻分词的级别相同,将目标分词和相邻分词组成一个词集合;
将至少两个词集合按照在所述分词序列中的排序组成所述词集合序列。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,包括:
若所述第一目标词集合和所述第二目标词集合的级别相同,使用所述第一目标词集合和所述第二目标词集合的并集代替所述第一目标词集合和所述第二目标词集合,所述并集的级别等于所述第一目标词集合的级别;
若所述第一目标词集合和所述第二目标词集合的级别不相同,使用合成词集合代替所述第一目标词集合和所述第二目标词集合,所述合成词集合包括合成词,任意一个所述合成词由第一词和作为所述第一词的修饰词的第二词组成,所述第一词属于所述第一目标词集合,所述第二词属于所述第二目标词集合;所述合成词集合的级别等于所述第二目标词集合的级别。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,还包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高至少两个级别,将所述第一目标词集合的级别调低一级。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,判断所述第一词和所述第二词是否存在修饰关系;
若是,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词;
若否,将所述第二词作为所述合成词集合中的词。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种语义信息的获取方法的各个步骤,如下:
一种语义信息的获取方法,包括:
获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
将所述词集合序列中的词集合作为所述待处理词的语义信息。
可选地,分词的预设级别为所述分词所属的分词词典的预设级别;
任一级别的分词词典满足第一条件,所述第一条件包括:属于同一个分词词典的分词之间不存在修饰关系;
相邻级别的两个分词词典满足第二条件,所述第二条件包括:第一概率不低于第二概率,所述第一概率为第三分词作为第四分词的修饰词的概率;所述第二概率为所述第四分词作为所述第三分词的修饰词的概率,所述第三分词为较低级别的词典中的任意一个分词,所述第四分词为较高级别的词典中的任意一个分词;
最高级别的分词词典满足第三条件,所述第三条件包括:第五分词是词尾词的概率大于预设数值,所述第五分词为所述最高级别的分词词典中的任一分词。
可选地,依据所述分词的预设级别,获取词集合序列,包括:
若在所述分词序列中,第一序位的分词的级别为最高级别,将所述第一序位的分词作为所述分词序列的最后一个分词;
若目标分词的级别与相邻分词的级别不同,将目标分词作为一个词集合,所述目标分词为所述分词序列中任一分词;
若所述目标分词的级别与相邻分词的级别相同,将目标分词和相邻分词组成一个词集合;
将至少两个词集合按照在所述分词序列中的排序组成所述词集合序列。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,包括:
若所述第一目标词集合和所述第二目标词集合的级别相同,使用所述第一目标词集合和所述第二目标词集合的并集代替所述第一目标词集合和所述第二目标词集合,所述并集的级别等于所述第一目标词集合的级别;
若所述第一目标词集合和所述第二目标词集合的级别不相同,使用合成词集合代替所述第一目标词集合和所述第二目标词集合,所述合成词集合包括合成词,任意一个所述合成词由第一词和作为所述第一词的修饰词的第二词组成,所述第一词属于所述第一目标词集合,所述第二词属于所述第二目标词集合;所述合成词集合的级别等于所述第二目标词集合的级别。
可选地,依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,还包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高至少两个级别,将所述第一目标词集合的级别调低一级。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词。
可选地,合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,判断所述第一词和所述第二词是否存在修饰关系;
若是,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词;
若否,将所述第二词作为所述合成词集合中的词。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语义信息的获取方法,其特征在于,包括:
获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
将所述词集合序列中的词集合作为所述待处理词的语义信息。
2.根据权利要求1所述的方法,其特征在于,所述分词的预设级别为所述分词所属的分词词典的预设级别;
任一级别的分词词典满足第一条件,所述第一条件包括:属于同一个分词词典的分词之间不存在修饰关系;
相邻级别的两个分词词典满足第二条件,所述第二条件包括:第一概率不低于第二概率,所述第一概率为第三分词作为第四分词的修饰词的概率;所述第二概率为所述第四分词作为所述第三分词的修饰词的概率,所述第三分词为较低级别的词典中的任意一个分词,所述第四分词为较高级别的词典中的任意一个分词;
最高级别的分词词典满足第三条件,所述第三条件包括:第五分词是词尾词的概率大于预设数值,所述第五分词为所述最高级别的分词词典中的任一分词。
3.根据权利要求1或2所述的方法,其特征在于,所述依据所述分词的预设级别,获取词集合序列,包括:
若在所述分词序列中,第一序位的分词的级别为最高级别,将所述第一序位的分词作为所述分词序列的最后一个分词;
若目标分词的级别与相邻分词的级别不同,将目标分词作为一个词集合,所述目标分词为所述分词序列中任一分词;
若所述目标分词的级别与相邻分词的级别相同,将目标分词和相邻分词组成一个词集合;
将至少两个词集合按照在所述分词序列中的排序组成所述词集合序列。
4.根据权利要求1所述的方法,其特征在于,所述依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,包括:
若所述第一目标词集合和所述第二目标词集合的级别相同,使用所述第一目标词集合和所述第二目标词集合的并集代替所述第一目标词集合和所述第二目标词集合,所述并集的级别等于所述第一目标词集合的级别;
若所述第一目标词集合和所述第二目标词集合的级别不相同,使用合成词集合代替所述第一目标词集合和所述第二目标词集合,所述合成词集合包括合成词,任意一个所述合成词由第一词和作为所述第一词的修饰词的第二词组成,所述第一词属于所述第一目标词集合,所述第二词属于所述第二目标词集合;所述合成词集合的级别等于所述第二目标词集合的级别。
5.根据权利要求4所述的方法,其特征在于,所述依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,还包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高至少两个级别,将所述第一目标词集合的级别调低一级。
6.根据权利要求4或5所述的方法,其特征在于,所述合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词。
7.根据权利要求4或5所述的方法,其特征在于,所述合成词集合中的词的获取过程包括:
若所述第一目标词集合和所述第二目标词集合的级别不相同,且所述第一目标词集合的级别比所述第二目标词集合的级别高一个级别,判断所述第一词和所述第二词是否存在修饰关系;
若是,将所述第二词作为所述第一词的修饰词,组合所述第一词和所述第二词,得到所述合成词集合中的合成词;
若否,将所述第二词作为所述合成词集合中的词。
8.一种语义信息的获取装置,其特征在于,包括:
分词序列获取模块,获取待处理词的分词序列,所述分词序列由所述待处理词的分词按照在所述待处理词中的排序构成;
词集合序列获取模块,用于依据所述分词的预设级别,获取词集合序列;其中,所述分词的预设级别依据所述分词之间的修饰关系确定,第一分词作为第二分词的修饰词的概率越大,则所述第一分词的级别越高,所述第一分词和所述第二分词均为任意一个分词;所述词集合序列中的每个词集合中包括至少一个分词,所述词集合包括的分词的级别相同且在所述分词序列中相邻;
迭代流程执行模块,用于执行以下迭代流程,直至所述词集合序列中的词集合的数量为1个:将所述词集合序列中级别最高且序位最后的词集合作为第一目标词集合,将所述第一目标词集合的前一序位的词集合第二目标词集合;依据所述第一目标词集合和所述第二目标词集合的级别之间的关系,更新所述词集合序列,所述词集合序列中的词集合的级别依据所述词集合中包括的各个词的级别确定;
语义信息获取模块,用于将所述词集合序列中的词集合作为所述待处理词的语义信息。
9.一种语义信息的获取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的语义信息的获取方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的语义信息的获取方法的各个步骤。
CN202110162371.XA 2021-02-05 2021-02-05 一种语义信息的获取方法、装置、设备及可读存储介质 Active CN112802569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110162371.XA CN112802569B (zh) 2021-02-05 2021-02-05 一种语义信息的获取方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162371.XA CN112802569B (zh) 2021-02-05 2021-02-05 一种语义信息的获取方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112802569A true CN112802569A (zh) 2021-05-14
CN112802569B CN112802569B (zh) 2023-08-08

Family

ID=75814451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162371.XA Active CN112802569B (zh) 2021-02-05 2021-02-05 一种语义信息的获取方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112802569B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121195A (zh) * 2021-11-12 2022-03-01 北京嘉和海森健康科技有限公司 电子病历的分词方法、装置及电子设备
CN114187919A (zh) * 2021-12-09 2022-03-15 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060037076A1 (en) * 2004-05-04 2006-02-16 Shantu Roy Methods and systems for enforcing network and computer use policy
US20070203693A1 (en) * 2002-05-22 2007-08-30 Estes Timothy W Knowledge Discovery Agent System and Method
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105824938A (zh) * 2016-03-18 2016-08-03 点击律(上海)网络科技有限公司 一种基于双向映射的检索方法和系统
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106339394A (zh) * 2015-07-09 2017-01-18 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107305568A (zh) * 2016-04-21 2017-10-31 北京智能管家科技有限公司 分布式的级联裂变查询方法及装置
CN107918606A (zh) * 2017-11-29 2018-04-17 北京小米移动软件有限公司 具象名词识别方法及装置
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109710937A (zh) * 2018-12-27 2019-05-03 南京大学 依存句法树构建系统
CN110674306A (zh) * 2018-06-15 2020-01-10 株式会社日立制作所 知识图谱的构建方法、装置、电子设备
CN111126048A (zh) * 2019-12-25 2020-05-08 腾讯科技(深圳)有限公司 一种候选同义词确定方法、装置、服务器及存储介质
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111241232A (zh) * 2018-11-29 2020-06-05 北京京东尚科信息技术有限公司 业务服务的处理方法、装置、服务平台及存储介质
CN111241819A (zh) * 2020-01-07 2020-06-05 北京百度网讯科技有限公司 词向量生成方法、装置及电子设备

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203693A1 (en) * 2002-05-22 2007-08-30 Estes Timothy W Knowledge Discovery Agent System and Method
US20060037076A1 (en) * 2004-05-04 2006-02-16 Shantu Roy Methods and systems for enforcing network and computer use policy
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
CN106339394A (zh) * 2015-07-09 2017-01-18 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN105824938A (zh) * 2016-03-18 2016-08-03 点击律(上海)网络科技有限公司 一种基于双向映射的检索方法和系统
CN107305568A (zh) * 2016-04-21 2017-10-31 北京智能管家科技有限公司 分布式的级联裂变查询方法及装置
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN107918606A (zh) * 2017-11-29 2018-04-17 北京小米移动软件有限公司 具象名词识别方法及装置
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110674306A (zh) * 2018-06-15 2020-01-10 株式会社日立制作所 知识图谱的构建方法、装置、电子设备
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111241232A (zh) * 2018-11-29 2020-06-05 北京京东尚科信息技术有限公司 业务服务的处理方法、装置、服务平台及存储介质
CN109710937A (zh) * 2018-12-27 2019-05-03 南京大学 依存句法树构建系统
CN111126048A (zh) * 2019-12-25 2020-05-08 腾讯科技(深圳)有限公司 一种候选同义词确定方法、装置、服务器及存储介质
CN111241819A (zh) * 2020-01-07 2020-06-05 北京百度网讯科技有限公司 词向量生成方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冀素琴;石洪波;卫洁;: "基于Map Reduce的Bagging贝叶斯文本分类", 计算机工程, no. 16, pages 209 - 212 *
王明芳;: "基于关键词集合的知识关联网络构建", 重庆文理学院学报(自然科学版), no. 06, pages 41 - 43 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121195A (zh) * 2021-11-12 2022-03-01 北京嘉和海森健康科技有限公司 电子病历的分词方法、装置及电子设备
CN114187919A (zh) * 2021-12-09 2022-03-15 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112802569B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
CN105069124B (zh) 一种自动化的国际疾病分类编码方法及系统
US9165116B2 (en) Patient data mining
CN109255013A (zh) 理赔决策方法、装置、计算机设备和存储介质
US20160335403A1 (en) A context sensitive medical data entry system
CN108182207B (zh) 基于分词网络的中文手术操作的智能编码方法及系统
CN112802569A (zh) 一种语义信息的获取方法、装置、设备及可读存储介质
CN111640480B (zh) 医学报告生成方法、计算机设备和存储介质
CN106846317A (zh) 一种基于特征提取和相似匹配的医学影像检索方法
CN109192261B (zh) 信息处理方法及装置、电子设备及存储介质
Hammami et al. Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach
CN112883157A (zh) 一种多源异构医疗数据的标准化方法及装置
CN112800173B (zh) 标准化数据库和医学文本库的构建方法、装置及电子设备
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
Guan et al. Cohortgpt: An enhanced gpt for participant recruitment in clinical study
Muheremu et al. Establishment of a three-dimensional finite element model of severe kyphotic deformity secondary to ankylosing spondylitis
CN111091914B (zh) 基于病历的癌症分型分期方法及其装置
CN112800763B (zh) 数据处理方法、医学文本数据处理方法、装置及电子设备
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
Sha et al. A robust segmentation method based on improved U-Net
CN112700826B (zh) 医学数据的处理方法、装置及存储介质
CN113392633B (zh) 一种医疗命名实体识别的方法、装置及存储介质
CN112700825B (zh) 医学数据的处理方法、装置及存储介质
CN111859972B (zh) 实体识别方法、装置、计算机设备及计算机可读存储介质
CN113972008A (zh) 一种关联病种分析方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant