CN113435194B - 词汇切分方法、装置、终端设备及存储介质 - Google Patents

词汇切分方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN113435194B
CN113435194B CN202110693410.9A CN202110693410A CN113435194B CN 113435194 B CN113435194 B CN 113435194B CN 202110693410 A CN202110693410 A CN 202110693410A CN 113435194 B CN113435194 B CN 113435194B
Authority
CN
China
Prior art keywords
vocabulary
word set
sentence
segmented
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110693410.9A
Other languages
English (en)
Other versions
CN113435194A (zh
Inventor
陈乐清
曾增烽
刘东煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110693410.9A priority Critical patent/CN113435194B/zh
Publication of CN113435194A publication Critical patent/CN113435194A/zh
Application granted granted Critical
Publication of CN113435194B publication Critical patent/CN113435194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种词汇切分方法、装置、终端设备及存储介质,该方法包括:对待切分语句进行实体识别得到第一词汇集,以及将待切分语句与预设字典进行词汇匹配得到第二词汇集;根据预设评分规则,确定第一词汇集和第二词汇集中各词汇的切分评分,将第一词汇集与第二词汇集进行组合,得到组合片段;分别确定组合片段中各字符对应的词汇路径,根据切分评分确定各词汇路径的路径分数;根据各词汇路径的路径分数对待切分语句进行词汇切分,得到切分词汇。本申请通过切分评分确定各词汇路径的路径分数,并根据各词汇路径的路径分数对待切分语句进行词汇切分,可以实现对待切分语句的词汇进行有效切分。

Description

词汇切分方法、装置、终端设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种词汇切分方法、装置、终端设备及存储介质。
背景技术
随着科技进步和生活水平的提高,越来越多的业务场景开始使用图像的媒介来保存用户的资料。比如在保险领域,用户可以通过提交病例资料(门诊病例、住院病例、化验单等),个人身份证明资料(身份证、户口本等)给保险公司,保险公司可以通过审核图像资料来判断用户是否满足投保要求或者理赔的要求。在投保的核保阶段,保险公司对病例中诊断提及的疾病是非常重视的。这些疾病都可以作为核保的风险点,对这些风险点做进一步的判断即可作为是否拒保的依据。因此,针对图像中语句的词汇抽取问题越来越受人们所重视。
相关技术中,在对语句进行词汇抽取时,需要对语句中的词汇进行切分,并基于词汇的切分结果得到语句对应的切分词汇。
发明内容
有鉴于此,本申请实施例提供了一种词汇切分方法、装置、终端设备及存储介质,以解决现有技术中,需要对病例中的语句进行词汇切分的问题。
本申请实施例的第一方面提供了一种词汇切分方法,包括:
响应于接收到待切分语句,对所述待切分语句进行实体识别,得到第一词汇集,以及将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集;
根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段;
分别确定所述组合片段中各字符对应的词汇路径,其中,所述词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数;
根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇。
进一步地,所述第二词汇集包括第一子词集和第二子词集,所述将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集,包括:
将所述待切分语句与所述预设字典进行词汇匹配,得到所述第一子词集,并对所述待切分语句进行标点识别,得到语句标点;
根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到所述第二子词集。
进一步地,所述根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,包括:
分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分。
进一步地,所述将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段,包括:
对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,所述词汇检测用于检测所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇是否有重复;
若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇;
分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分语句中的编号;
根据预设排序规则对所述编号对应的所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点进行排序组合,得到所述组合片段。
进一步地,所述分别确定所述组合片段中各字符对应的词汇路径,包括:
在所述组合片段中,分别以各字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
进一步地,所述分别确定所述组合片段中各字符对应的词汇路径,包括:
在所述组合片段中,分别获取各字符与指定字符之间所形成的字符串,所述指定字符与相应字符之间的字符间隔等于预设间隔;
针对各字符,分别以各字符串中的字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
进一步地,所述根据所述切分评分确定各词汇路径的路径分数,包括:
分别确定各词汇路径中的词汇对应的所述切分评分,并计算同一词汇路径中所述切分评分的和,得到所述路径分数。
本申请实施例的第二方面提供了一种词汇切分装置,包括:
实体识别单元,用于响应于接收到待切分语句,对所述待切分语句进行实体识别,得到第一词汇集,以及将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集;
词汇组合单元,用于根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段;
路径分数确定单元,用于分别确定所述组合片段中各字符对应的词汇路径,其中,所述词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数;
词汇切分单元,用于根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的词汇切分方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的词汇切分方法的各步骤。
实施本申请实施例提供的一种词汇切分方法、装置、终端设备及存储介质具有以下有益效果:通过对待切分语句进行实体识别和词汇匹配,以采用两种的不同识别方式获取待切分语句中的词汇,通过将第一词汇集中的词汇与第二词汇集中的词汇进行组合,得到组合片段,并分别确定组合片段中各字符对应的词汇路径,提高了词汇路径的多样性,即,提高了对待切分语句进行词汇切分时的多样性,通过切分评分确定各词汇路径的路径分数,并根据各词汇路径的路径分数对待切分语句进行词汇切分,可以实现对待切分语句的词汇进行有效切分。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种词汇切分方法的实现流程图;
图2是本申请另一实施例提供的一种词汇切分方法的实现流程图;
图3是本申请另一实施例提供的一种词汇切分方法的实现流程图;
图4是本申请实施例提供的一种词汇切分装置的结构框图;
图5是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的词汇切分方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种词汇切分方法的实现流程图,包括:
步骤S10,响应于接收到待切分语句,对所述待切分语句进行实体识别,得到第一词汇集,以及将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集。
其中,可以根据预训练后的命名实体识别(Named Entity Recognition,NER)模型对该待切分语句进行实体识别,得到该待切分语句对应的第一词汇集(实体词汇片段),该预训练后的NER模型用于提取待切分语句中的实体词汇,优选的,可以采用条件随机场(Conditional Random Fields,CRF)算法对NER模型进行训练,以达到对该NER模型的预训练效果。
该步骤中,该待切分语句可以采用文本、图片或语音的方式进行传输,当该待切分语句采用文本的方式进行传输时,则将接收到的是文本状态的待切分语句时,则将文本状态的待切分语句直接输入预训练后的NER模型进行实体识别,当将接收到的是图片状态的待切分语句时,先提取待切分语句对应的图片中的指定区域,并对该指定区域中的文字进行文字识别,得到识别语句,并将该识别语句输入预训练后的NER模型进行实体识别,该待切分语句对应的图片中存储有语句特征标识,该语句特征标识用于指向对应的指定区域,该语句特征标识可以采用文字、图像或字符的方式存储在该待切分语句对应的图片中,例如,当该待切分语句为病历图片中的入院诊断说明时,则该语句特征标识可以为文字“入院诊断”,即,该步骤中,提取该病历图片中文字“入院诊断”对应的区域,得到该指定区域。
进一步地,该步骤中,通过将该待切分语句中的词汇与预设字典中的预设词汇进行匹配,得到该第二词汇集,该第二词汇集包括待切分语句中的词汇与预设字典中的预设词汇之间相匹配的词汇,该预设字典中的预设词汇可以根据需求进行设置,该预设字典可以为疾病字典,则该预设词汇为疾病字典中包含的疾病词汇。
步骤S20,根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段。
其中,该切分评分用于表征对应词汇的切分重要性,即,当词汇对应的切分评分越大时,则判定针对该词汇的切分概率越大,例如,针对词汇a1、词汇a2、词汇a3和词汇a4确定到的切分评分为切分评分b1、切分评分b2、切分评分b3和切分评分b4,且当切分评分b1>切分评分b2>切分评分b3>切分评分b4时,则判定待切分语句的词汇切分过程中,词汇a1被切分的概率>词汇a2被切分的概率>词汇a3被切分的概率>词汇a4被切分的概率。优选的,该步骤中,通过将第一词汇集中的词汇与第二词汇集中的词汇进行组合,有效地方便了后续词汇路径的确定。
步骤S30,分别确定所述组合片段中每个字符对应的词汇路径,并根据所述切分评分确定各词汇路径的路径分数。
其中,词汇路径为相应字符在所述组合片段中形成的字符串,例如,当该组合片段包括字符c1、字符c2、字符c3和字符c4,则字符c1对应的词汇路径为路径“字符c1”,字符c2对应的词汇路径为路径“字符c1字符c2”,字符c3对应的词汇路径包括路径“字符c1字符c3”、路径“字符c2字符c3”和路径“字符c1字符c2字符c3”,字符c4对应的词汇路径包括路径“字符c1字符c4”、路径“字符c2字符c4”、路径“字符c3字符c4”、路径“字符c1字符c2字符c4”、路径“字符c1字符c3字符c4”、路径“字符c2字符c3字符c4”和路径“字符c1字符c2字符c3字符c4”。
该步骤中,该路径分数用于表征对应词汇路径的词汇切分准确程度,即,当该词汇路径的路径分数越大时,则判定该词汇路径的词汇切分准确程度越高。
步骤S40,根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇。
其中,将最大路径分数对应的词汇路径设置为词汇切分路径,并根据该词汇切分路径对待切分语句进行词汇切分,得到该待切分语句对应的切分词汇,例如,当最大路径分数对应的词汇路径为路径“字符c1字符c2字符c3字符c4”时,则将字符c1、字符c2、字符c3和字符c4在待切分语句中对应的词汇进行词汇切分,得到该切分词汇。可选的,该步骤中,当将最大路径分数对应的词汇路径设置为词汇切分路径之后,可以对该词汇切分路径中的标点符号进行过滤,并根据标点符号过滤后的词汇切分路径对待切分语句进行词汇切分,防止了由于标点符号对待切分语句的词汇切分的干扰,提高了词汇切分的准确性。
该步骤中,当该待切分语句为病历中的入院诊断说明时,则词汇切分和抽取后得到的切分词汇为入院诊断说明中的疾病词汇。
本实施例中,通过对待切分语句进行实体识别和词汇匹配,以采用两种的不同识别方式获取待切分语句中的词汇,通过将第一词汇集中的词汇与第二词汇集中的词汇进行组合,得到组合片段,并分别确定组合片段中各字符对应的词汇路径,提高了词汇路径的多样性,即,提高了对待切分语句进行词汇切分时的多样性,通过切分评分确定各词汇路径的路径分数,并根据各词汇路径的路径分数对待切分语句进行词汇切分,使得能有效地基于各词汇路径的路径分数对待切分语句进行词汇切分。
请参阅图2,图2是本申请另一实施例提供的一种词汇切分方法的实现流程图。相对于图1实施例,本实施例提供的词汇切分方法用于对图1实施例中的步骤S10作进一步细化,包括:
步骤S11,将所述待切分语句与所述预设字典进行词汇匹配,得到所述第一子词集,并对所述待切分语句进行标点识别,得到语句标点。
该步骤中,可以采用AC自动机算法(Aho-Corasick automaton)进行该待切分语句中的词汇与预设字典中预设词汇之间的精准匹配,以得到该待切分语句中与预设字典相匹配的词汇,并根据匹配到的词汇构建生成该第一子词集;
可选的,该步骤中,可以根据正则表达式对待切分语句中的标点进行有效的识别,得到该语句标点,该语句标点包括标点符号、数字序号或特殊字符等符号。
步骤S12,根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到所述第二子词集。
其中,可以采用BK-Tree算法(模糊匹配算法)进行该语句段落与预设字典之间的模糊匹配,以得到该语句段落对应的第二子词集,通过分别将各语句段落作为一个词汇分别与预设字典中的预设词汇进行匹配,以得到该待切分语句对应的第二子词集。
可选的,该步骤中,该预设字典中存储有不同预设词汇与模糊段落之间的对应关系,若语句段落与预设字典中的任一预设词汇对应的模糊段落相匹配,则判定该语句段落与预设字典相匹配,并对该语句段落进行标记,根据标记的语句段落构建该第二字词集。例如,当语句段落“新生儿乎吸窘迫综合征”与预设字典中预设词汇“新生儿呼吸”对应的模糊段落相匹配时,则判定语句段落“新生儿乎吸窘迫综合征”与预设字典相匹配。
可选的,本实施例中,针对步骤S20,所述根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,包括:
分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分;
其中,该预设倍数可以根据需求进行设置,例如,该预设倍数可以设置为2倍、3倍或5倍等,该步骤中,若第一词汇集、第一子词集和第二子词集中的词汇与预设字典相匹配,通过将第一词汇集、第一子词集和第二子词集中的词汇对应预设倍数的字符数设置为切分评分,有效地提高了正确词汇的切分评分,若第一词汇集、第一子词集和第二子词集中的词汇与预设字典相匹配时,则判定该词汇为正确词汇。
例如,当词汇为“新生儿乎吸窘迫综合征”,预设倍数为2倍时,由于“新生儿乎吸窘迫综合征”与预设字典中预设词汇“新生儿呼吸”对应的模糊段落相匹配,因此,该词汇“新生儿乎吸窘迫综合征”对应的切分评分为字符数(10)x2=20分,当词汇为“新生儿感染糖尿”,且“新生儿感染糖尿”与预设字典之间不匹配时,则该词汇“新生儿感染糖尿”对应的切分评分为7分。
进一步地,所述将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段,包括:
对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,其中,词汇检测用于检测第一词汇集、第一子词集述第二子词集之间的词汇是否有重复;
若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇,其中,通过删除重复的词汇,防止了由于重复词汇集所致的组合片段中词汇重复现象,提高了组合片段的准确性;
例如,第一词汇集包括:新生儿、吸窘迫综合征、新生儿感染糖尿、早产儿;第二词汇集包括:新生儿感染、早产儿;第三词汇集包括:新生儿乎吸窘迫综合征、糖尿母亲患儿,其中,由于第一词汇集中的新生儿与第二词汇集中的新生儿感染重复,因此,在组合片段时,仅包括新生儿感染重复。
分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分语句中的编号;
根据预设排序规则对所述编号对应的所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点进行排序组合,得到所述组合片段;
其中,该预设排序规则可以根据需求进行设置,该步骤中,该预设排序规则可以是正排序规则,即,基于该第一词汇集、第一子词集、第二子词集中的词汇和语句标点在待切分语句中编号的大小,以进行正排序,并将排序后得到词汇组合设置为该组合片段;
例如,当待切分语句为“新生儿呼吸窘迫综合征、新生儿感染、糖尿病母亲患儿、早产儿”;第一词汇集包括:新生儿、吸窘迫综合征、新生儿感染糖尿、早产儿;第二词汇集包括:新生儿感染、早产儿;第三词汇集包括:新生儿乎吸窘迫综合征、糖尿母亲患儿,则分别查询第一词汇集、第一子词集、第二子词集中的词汇和语句标点在待切分语句中的编号,并根据编号对第一词汇集、第一子词集、第二子词集中的词汇和语句标点进行排序组合,得到组合片段“新生儿乎吸窘迫综合征、新生儿感染糖尿母亲患儿、早产儿”
针对第一词汇集、第二词汇集和第三词汇集,根据预设排序规则对编号对应的第一词汇集、第一子词集、第二子词集中的词汇和语句标点进行排序组合得到的组合片段为:新生儿乎吸窘迫综合征、新生儿感染糖尿母亲患儿、早产儿。
本实施例中,通过将待切分语句与预设字典进行词汇匹配,以获取该待切分语句与预设字典中预设词汇之间相同的词汇,得到该第一子词集,通过对待切分语句进行标点识别,能有效地提取到待切分语句中的标点符号、数字序号或特殊字符等符号,通过语句标点对待切分语句进行段落切分,提高了语句段落与预设字典之间词汇匹配的准确性。
请参阅图3,图3是本申请另一实施例提供的一种词汇切分方法的实现流程图。相对于图1实施例,本实施例提供的词汇切分方法用于对图1实施例中的步骤S30作进一步细化,包括:
步骤S31,在所述组合片段中,分别以各字符为路径终点对所述组合片段进行路径分割,得到路径片段。
例如,针对组合片段:新生儿乎吸窘迫综合征、新生儿感染糖尿母亲患儿、早产儿,分别以组合片段中新、生、儿、乎、吸、窘、迫、综、合、征、新、生、儿、感、染、糖、尿、母、亲、患、儿、早、产和儿为路径终点,对组合片段进行路径分割,得到路径片段;
当以乎为路径终点时,则切分得到的路径片段为:新生儿乎;以征为路径终点时,则切分得到的路径片段为:新生儿乎吸窘迫综合征。
步骤S32,将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
例如,当路径片段为“新生儿乎”时,词汇集包括“新生儿”和“乎”,因此,组合得到的词汇路径为“新生儿”-“乎”;
当路径片段为“新生儿乎吸窘迫综合征”时,词汇集包括“新生儿”、“乎”、“吸窘迫综合征”和“新生儿乎吸窘迫综合征”,因此,组合得到的词汇路径为五条,分别是:
(1)“新生儿”-“乎”-“吸窘迫综合征”;(2)“新生儿乎吸窘迫综合征”;(3)“新生儿”-“乎”;(4)“新生儿”-“吸窘迫综合征”(5)“乎”-“吸窘迫综合征”。
可选的,该步骤中,针对各路径片段的词汇路径,可以仅保留最长的N条路径,N的值可以根据需求进行设置,例如,N可以设置为2、3或4等,本实施例中N的值设置为2,因此,针对路径片段“新生儿乎吸窘迫综合征”,仅保留“新生儿”-“乎”-“吸窘迫综合征”路径和“新生儿乎吸窘迫综合征”路径。
步骤S33,分别确定各词汇路径中的词汇对应的所述切分评分,并计算同一词汇路径中所述切分评分的和,得到所述路径分数。
其中,通过分别确定各词汇路径中的词汇对应的切分评分,有效地提高了各词汇路径对应路径分数计算的准确性,例如,针对“新生儿”-“乎”-“吸窘迫综合征”路径,分别确定“新生儿”、“乎”和“吸窘迫综合征”对应的切分评分,并将确定到的切分评分求和,得到“新生儿”-“乎”-“吸窘迫综合征”路径对应的路径分数。
可选的,本实施例中,针对步骤S30,所述分别确定所述组合片段中每个字符对应的词汇路径,还可以包括:
在所述组合片段中,分别获取各字符与指定字符之间所形成的字符串;
针对各字符,分别以各字符串中的字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
其中,指定字符与相应字符之间的字符间隔等于预设间隔,该预设间隔可以根据需求进行设置,例如,当该预设间隔为1个字符时,则针对组合片段中每个字符,均要生成两个词汇路径;
例如,当组合片段为“新生儿乎吸窘迫综合征、新生儿感染糖尿母亲患儿、早产儿”,针对“征”,形成的字符串为“征合”,因此,在组合片段中分别以“征”和“合”为路径终点对所述组合片段进行路径分割,得到路径片段。
本实施例中,通过在组合片段中,分别以各字符为路径终点对组合片段进行路径分割,得到路径片段,有效地提高了词汇路径生成的准确性,通过将路径片段中的不同词汇和/或不同语句标点进行组合,能有效地得到词汇片段对应的不同词汇路径,通过分别确定各词汇路径中的词汇对应的切分评分,有效地提高了各词汇路径对应路径分数计算的准确性。
在本申请的所有实施例中,基于各词汇路径的路径分数对待切分语句进行词汇切分,得到切分词汇,具体来说,切分词汇由各词汇路径的路径分数对待切分语句进行词汇切分。将切分词汇上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该切分词汇,以便查切分词汇是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图4,图4是本申请实施例提供的一种词汇切分装置100的结构框图。本实施例中该词汇切分装置100包括的各单元用于执行图1、图2、图3对应的实施例中的各步骤。具体请参阅图1、图2、图3以及图1、图2、图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,词汇切分装置100包括:实体识别单元10、词汇组合单元11、路径分数确定单元12和词汇切分单元13,其中:
实体识别单元10,用于响应于接收到待切分语句,对所述待切分语句进行实体识别,得到第一词汇集,以及将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集。
其中,所述第二词汇集包括第一子词集和第二子词集,该实体识别单元10还用于:将所述待切分语句与所述预设字典进行词汇匹配,得到所述第一子词集,并对所述待切分语句进行标点识别,得到语句标点;
根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到所述第二子词集。
词汇组合单元11,用于根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段。
其中,词汇组合单元11还用于:分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分。
可选的,该词汇组合单元11还用于:对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,所述词汇检测用于检测所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇是否有重复;
若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇;
分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分语句中的编号;
根据预设排序规则对所述编号对应的所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点进行排序组合,得到所述组合片段。
路径分数确定单元12,用于分别确定所述组合片段中各字符对应的词汇路径,词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数。
其中,路径分数确定单元12还用于:在所述组合片段中,分别以各字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
可选的,该路径分数确定单元12还用于:在所述组合片段中,分别获取各字符与指定字符之间所形成的字符串,所述指定字符与相应字符之间的字符间隔等于预设间隔;
针对各字符,分别以各字符串中的字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
进一步地,该路径分数确定单元12还用于:分别确定各词汇路径中的词汇对应的所述切分评分,并计算同一词汇路径中所述切分评分的和,得到所述路径分数。
词汇切分单元13,用于根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇。
本实施例中,通过对待切分语句进行实体识别和词汇匹配,以采用两种的不同识别方式获取待切分语句中的词汇,通过将第一词汇集中的词汇与第二词汇集中的词汇进行组合,得到组合片段,并分别确定组合片段中各字符对应的词汇路径,提高了词汇路径的多样性,即,提高了对待切分语句进行词汇切分时的多样性,通过切分评分确定各词汇路径的路径分数,并根据各词汇路径的路径分数对待切分语句进行词汇切分,使得能有效地基于各词汇路径的路径分数对待切分语句进行词汇切分。
图5是本申请另一实施例提供的一种终端设备2的结构框图。如图5所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如词汇切分方法的程序。处理器20执行所述计算机程序22时实现上述各个词汇切分方法各实施例中的步骤,例如图1所示的S10至S40,或者图2所示的S11至S12,或者图3所示的S31至S33。或者,所述处理器20执行所述计算机程序22时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元10至13的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成实体识别单元10、词汇组合单元11、路径分数确定单元12和词汇切分单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图5仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种词汇切分方法,其特征在于,包括:
响应于接收到待切分语句,以所述待切分语句中的全部内容为识别对象,对所述待切分语句进行实体识别,得到第一词汇集,以及,以所述待切分语句中的全部内容为识别对象,将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集;其中,所述实体识别与所述词汇匹配为用以获取待切分语句中的词汇的两种不同的识别方式,所述第一词汇集为命名实体识别模型从所述待切分语句中的全部词汇中能够提取出的词汇,所述第二词汇集为所述待切分语句中的全部词汇与所述预设字典中的预设词汇之间相匹配的词汇;
根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段;
分别确定所述组合片段中各字符对应的词汇路径,其中,所述词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数;
根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇;
所述第二词汇集包括第一子词集和第二子词集,所述将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集,包括:
将所述待切分语句与所述预设字典进行词汇匹配,得到所述第一子词集,并对所述待切分语句进行标点识别,得到语句标点;
根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到所述第二子词集;
所述根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,包括:
分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分;
所述将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段,包括:
对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,所述词汇检测用于检测所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇是否有重复;
若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇;
分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分语句中的编号;
根据预设排序规则对所述编号对应的所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点进行排序组合,得到所述组合片段。
2.根据权利要求1所述的词汇切分方法,其特征在于,所述分别确定所述组合片段中各字符对应的词汇路径,包括:
在所述组合片段中,分别以各字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
3.根据权利要求1所述的词汇切分方法,其特征在于,所述分别确定所述组合片段中各字符对应的词汇路径,包括:
在所述组合片段中,分别获取各字符与指定字符之间所形成的字符串,所述指定字符与相应字符之间的字符间隔等于预设间隔;
针对各字符,分别以各字符串中的字符为路径终点对所述组合片段进行路径分割,得到路径片段;
将所述路径片段中的不同词汇和/或不同所述语句标点进行组合,得到所述词汇路径。
4.根据权利要求1所述的词汇切分方法,其特征在于,所述根据所述切分评分确定各词汇路径的路径分数,包括:
分别确定各词汇路径中的词汇对应的所述切分评分,并计算同一词汇路径中所述切分评分的和,得到所述路径分数。
5.一种词汇切分装置,其特征在于,包括:
实体识别单元,用于响应于接收到待切分语句,以所述待切分语句中的全部内容为识别对象,对所述待切分语句进行实体识别,得到第一词汇集,以及,以所述待切分语句中的全部内容为识别对象,将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集;其中,所述实体识别与所述词汇匹配为用以获取待切分语句中的词汇的两种不同的识别方式,所述第一词汇集为命名实体识别模型从所述待切分语句中的全部词汇中能够提取出的词汇,所述第二词汇集为所述待切分语句中的全部词汇与所述预设字典中的预设词汇之间相匹配的词汇;
词汇组合单元,用于根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段;
路径分数确定单元,用于分别确定所述组合片段中各字符对应的词汇路径,其中,所述词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数;
词汇切分单元,用于根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇;
所述实体识别单元还用于:
将所述待切分语句与所述预设字典进行词汇匹配,得到第一子词集,并对所述待切分语句进行标点识别,得到语句标点;
根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到第二子词集;
所述词汇组合单元还用于:
分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;
若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分;
所述词汇组合单元还用于:
对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,所述词汇检测用于检测所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇是否有重复;
若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇;
分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分语句中的编号;
根据预设排序规则对所述编号对应的所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点进行排序组合,得到所述组合片段。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
CN202110693410.9A 2021-06-22 2021-06-22 词汇切分方法、装置、终端设备及存储介质 Active CN113435194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110693410.9A CN113435194B (zh) 2021-06-22 2021-06-22 词汇切分方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110693410.9A CN113435194B (zh) 2021-06-22 2021-06-22 词汇切分方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113435194A CN113435194A (zh) 2021-09-24
CN113435194B true CN113435194B (zh) 2023-07-21

Family

ID=77757061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110693410.9A Active CN113435194B (zh) 2021-06-22 2021-06-22 词汇切分方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113435194B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN109684928A (zh) * 2018-11-22 2019-04-26 西交利物浦大学 基于互联网检索的中文文档识别方法
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301170B (zh) * 2017-06-19 2020-12-22 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN110738048B (zh) * 2019-09-30 2023-08-04 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN112395866B (zh) * 2020-11-17 2024-02-02 中国外运股份有限公司 报关单数据匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN109684928A (zh) * 2018-11-22 2019-04-26 西交利物浦大学 基于互联网检索的中文文档识别方法
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质

Also Published As

Publication number Publication date
CN113435194A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN110459282B (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
US11989518B2 (en) Normalized processing method and apparatus of named entity, and electronic device
US20230015054A1 (en) Text classification method, electronic device and computer-readable storage medium
CN110910976A (zh) 病历检测方法、装置、设备和存储介质
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
US20090299977A1 (en) Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
CN110827941A (zh) 电子病历信息校正方法及系统
CN111724136A (zh) 病案首页信息的录入方法、装置及计算机设备
Shen et al. Enhancing ontology-driven diagnostic reasoning with a symptom-dependency-aware Naïve Bayes classifier
CN111091881A (zh) 医疗信息分类方法、医疗分类信息的存储方法及计算设备
US11449680B2 (en) Method for testing medical data
CN111177375A (zh) 一种电子文档分类方法及装置
Yogarajan et al. A survey of automatic de-identification of longitudinal clinical narratives
Zhao et al. Exploiting classification correlations for the extraction of evidence-based practice information
Miller et al. Extracting adverse drug event information with minimal engineering
CN112307172A (zh) 一种语义解析设备、方法、终端及存储介质
CN113488157B (zh) 智能导诊处理方法、装置、电子设备及存储介质
CN113724830B (zh) 基于人工智能的用药风险检测方法及相关设备
CN113435194B (zh) 词汇切分方法、装置、终端设备及存储介质
Norman Systematic review automation methods
Nikolova et al. Applying language technologies on healthcare patient records for better treatment of Bulgarian diabetic patients
CN115631823A (zh) 相似病例推荐方法及系统
Munsch et al. A benchmark of online COVID-19 symptom checkers
CN114898895A (zh) 新疆地方药物不良反应识别方法及相关装置
Milosevic et al. MASK: A flexible framework to facilitate de-identification of clinical texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant