CN107908601A - 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法 - Google Patents

医疗文本的分词模型构建方法、设备、可读存储介质及分词方法 Download PDF

Info

Publication number
CN107908601A
CN107908601A CN201711060093.7A CN201711060093A CN107908601A CN 107908601 A CN107908601 A CN 107908601A CN 201711060093 A CN201711060093 A CN 201711060093A CN 107908601 A CN107908601 A CN 107908601A
Authority
CN
China
Prior art keywords
word
feature
lexeme
participle model
word sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711060093.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yi Yi Intelligent Technology Co Ltd
Original Assignee
Beijing Yi Yi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yi Yi Intelligent Technology Co Ltd filed Critical Beijing Yi Yi Intelligent Technology Co Ltd
Priority to CN201711060093.7A priority Critical patent/CN107908601A/zh
Publication of CN107908601A publication Critical patent/CN107908601A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种医疗文本的分词模型构建方法,包括:获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率;根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获取损失值;根据所述损失值,训练分词模型,直到获得目标分词模型。上述医疗文本的分词模型构建方法,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。本发明还涉及一种分词模型构建设备、可读存储介质以及分词方法。

Description

医疗文本的分词模型构建方法、设备、可读存储介质及分词 方法
技术领域
本发明涉及自然语言处理领域,特别是涉及一种基于医疗文本的分词模型构建方法、设备、可读存储介质及分词方法。
背景技术
电子病历是患者在医疗机构就诊时产生的医疗记录,主要包括患者信息和诊疗信息等等。近年来,随着电子病历的广泛应用,为了便于医务人员诊断推理,基于医学文本的临床决策支持研究备受关注,其中,对医疗文本进行分词是临床决策支持研究的基础性任务。
由于电子病历的特殊性,传统的分词工具难以适用于医疗领域,准确性较低,无法满足实际的需求。
发明内容
基于此,有必要针对传统的医疗文本的分词方法准确率较低的问题,提供一种医疗文本分词模型构建方法、设备、可读存储介质以及分词方法。
一种医疗文本的分词模型构建方法,所述方法包括:
获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率;
根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获取损失值;
根据所述损失值,训练分词模型,直到获得目标分词模型。
上述医疗文本的分词构建方法,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
作为一种具体实施例,其中,所述对所述字序列进行标注,获得标记字序列的步骤包括:
根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
作为一种具体实施例,其中,所述获得特征模板的步骤包括:
获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
作为一种具体实施例,其中,所述获得特征模板的步骤包括:
获取预先设置的停止符,根据所述停止符获取特征模板。
作为一种具体实施例,其中,所述特征函数包括转移特征函数和状态特征函数;
所述根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率的步骤包括:
根据所述状态特征函数以及每个字的特征,获得每个字的状态特征值以及状态特征参数;
根据所述转移特征函数以及每个字的特征,获得每个字的转移特征值以及转移特征参数;
根据每个字的状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
作为一种具体实施例,其中,所述根据所述损失值,训练分词模型,直到获得目标分词模型的步骤包括:
根据损失值调整状态特征参数以及转移特征参数,训练分词模型,直到得到所述损失值的最小值;
根据调整后的状态特征参数以及调整后的转移特征参数,构建目标分词模型。
一种分词模型构建设备,其特征在于,所述设备包括:
标记序列获得模块,用于获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
特征获得模块,用于获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
概率计算模块,用于根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
损失值计算模块,用于根据所述词位标注概率计算获得所述字序列的词位标注联合概率,并根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获得损失值;
模型构建模块,用于根据所述损失值,训练分词模型,直到获得目标分词模型。
上述分词模型构建设备,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,其中,所述计算机指令在被所述处理器执行时实现上述任一个实施例中所述方法的步骤。
上述计算机设备,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
一种计算机可读存储介质,所述计算机存储介质上存储有计算机指令,其中,所述计算机指令在被处理器执行时实现上述任一个实施例中所述方法的步骤。
上述计算机可读存储介质,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
一种医疗文本的分词方法,其中,所述方法包括:
获取待分词医疗文本;
利用上述各个实施例中任一项实施例中所述方法的获得的分词模型,对所述待分词医疗文本进行分词。
上述分词方法,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
附图说明
图1为一个具体实施方式提供的医疗文本分词模型构建方法的流程图;
图2为一个具体实施方式提供的医疗文本分词模型构建方法的部分流程图;
图3为一个具体实施方式提供的医疗文本分词模型构建方法的部分流程图;
图4为一个具体实施方式提供的医疗文本分词模型构建设备的结构示意图;
图5为一个具体实施方式提供的医疗文本的分词方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为一个具体实施方式提供的医疗文本分词模型构建方法的流程图。其中,所述方法包括:
S110,获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列。
具体地,对输入的医疗文本以字为单位进行切分,获得与医疗文本对应的字序列。所述医疗文本可以是电子病历,也可以是记载医疗方法的医学教科书、论文等文本。
具体地,对所述字序列进行标记,获得与字序列对应的标记字序列。可以采用根据BMES四词位标注格式对所述字序列进行标注,得到BMES标记字序列,其中,B表示词首,M表示词中,E表示词尾,S表示单字词。例如,对于训练集中的字序列“患者无心肌梗死”,经过BMES四词位标注后,获得的标记字序列为:
患 B
者 E
无 S
心 B
肌 M
梗 M
死 E
可以理解,可以根据具体需求灵活选择标注方法,例如,在其他实施例中,也可以选择BIO标注格式对字序列进行标注,以获得与所述字序列对应的词位,还可以选择BMCES标注格式对字序列进行标注。
S120,获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征。
具体地,特征模板(Template)可以是预先制定的。例如,下例为一个5位的特征模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
上述特征模版中[-2,0]-[2,0]所对应表示的含义是:当前字前面的第二个字、当前字前面的第一个字、当前字、当前字后面的第一个字以及当前字后面的第二个字。
以字序列“患者无心肌梗死”为例,以“心”字为当前字,根据上述特征模板可以生成关于当前字“心”的如下五个特征:
U00:%x[-2,0]者
U01:%x[-1,0]无
U02:%x[0,0]心
U03:%x[1,0]肌
U04:%x[2,0]梗
S130,根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率。
具体地,在字序列通过特征模板进行特征提取后,依据每个字的前后关系和标记字序列设置特征函数。可以理解,特征函数的数量可以为一个,也可以为多个。
具体地,各个特征通过特征函数,可以计算获得各个特征对应的特征值,并进一步获得每个字的词位标注概率。
S140,根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率。
具体地,字序列的词位标注联合概率,是指字序列中各个字的词位标注概率的乘积。例如,对于“我爱北京天安门”的字序列使用BMCES标注格式,所得到的标注序列为“S SBE BME”。设计算得到的“我”字为“S”的词位标注概率为P1,“爱”字为“S”的词位标注概率为P2,“北”字为“B”的词位标注概率为P3,“京”字为“E”的词位标注概率为P4,“天”字为“B”的词位标注概率为P5,“安”字为“M”的词位标注概率为P6,“门”字为“E”的词位标注概率为P7。而最终字序列“我爱北京天安门”的词位标注联合概率为P=P1*P2*P3*P4*P5*P6*P7。
S150,根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获得损失值。
具体地,损失函数(Loss Function)用来估量模型的预测值与标准值的不一致程度。而根据步骤S140中得到的词位标注联合概率和预先设置的语料库中的标准值作为输入,通过损失函数进行计算,获得损失值。
进一步地,预先设置的语料库可以采用通用的语料库,如人民日报语料库,也可以采用医学专用的语料库。
S160,根据所述损失值,训练分词模型,直到获得目标分词模型。
具体地,分词模型学习的过程,就是减少损失值的过程,可以采用梯度下降算法,通过调整参数,使损失值减少的最小。而使损失值最小的参数,可以用来构建目标分词模型。
上述医疗文本的分词构建方法,通过词位标注联合概率与语料库中的标准值计算损失值,并根据损失值进行调整,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
在其中一个具体实施方式中,所述语料库的采用医学专用的语料库。
具体地,以医学电子病历为基础,通过人工及模型的方法进行关键词提取及标记的方式,获取医学专用的语料库。进一步地,通过主流术语库的开源数据,如ICD-10、MedDRA等数据库内容对语料库进行丰富。更进一步地,还可以通过爬取医药电商网站,获取药品名称等相关信息,进而根据药品名称等相关信息对语料库进行丰富。再进一步地,还可以在专用语料库中增加一定比例的通用语料库,例如人民日报语料库的内容。
上述构建方法得到的分词模型,不仅提高了对医疗文本的分词的准确率,而且增加了分词模型的通用性。
在其中一个具体实施方式中,所述对所述字序列进行标注,获得标记字序列的步骤包括:
根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
具体地,与BMES词位标注格式相比,BMCES标注格式用C单独对词中标点进行标注。例如,对于“2,3-二膦酸甘油酸”,经过BMCES标注,得到的标注结果为:
2 B
, C
3 M
- C
二 M
磷 M
酸 M
甘 M
油 M
酸 E
由于医疗文本中存在大量的中间带有标点符号的术语词汇,例如,“1,25双羟维生素D”为实验室检查的一项指标,再如,“特雷彻·柯林斯综合症”为一种疾病。在中间带有标点的术语词汇中,如果采用BEMS标注格式,会将词中标点单独标记为一个词,例如逗号“,”会单独标记为S,这会导致带有词中标点的术语词汇被错误标注,进而影响分词结果的准确率。因此,采用BECMS标注格式,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词,可以正确标注带有词中标点的术语词汇,从而大大地提高了分词的准确率。可以理解,B、M、C、E、S五个字母只是五种标注符号,在不影响发明目的的情况下,可以灵活采用标注符号对词首、词中、词中标点、词尾和单字词进行标注。
上述构建方法得到的分词模型,通过对字间标点使用单独的标记格式,从而进一步提升了分词的准确率。
在其中一个具体实施方式中,所述获得特征模板的步骤包括:
获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
具体地,分词模型在对每个当前字进行词位标注时,会根据预设阈值,获取每个当前字预设阈值范围的其他字符,进而根据预设阈值以及预设阈值范围内的其他字符设定特征模板。进一步地,将预设阈值设定为5,即根据当前字、当前字前面的五个字以及当前字后面的五个字,设定特征模板。
在其中一个具体实施方式中,所述获得特征模板的步骤包括:
获取预先设置的停止符,根据所述停止符获取特征模板。
具体地,根据具体需求,预先设置停止符。如果在当前字的向前追溯或向后追溯的过程中发现了预先设置的停止符,则将所述停止符用空值或者未知字来替换。进一步地,所述停止符包括分号、句号、感叹号、破折号、问号的至少一种。
例如,假设当前字向前追溯的位数和向后追溯的位数都是十位。即当前字,当前字前面的十个字以及当前字后面的十个字,共同形成一组序列长度为21位的模板,同时设定如下规则:
在向前追溯的过程中,如果出现停止符号,则该位字符类别都用“K”标识(即终止,在BMCES之外衍生的一个新的标识,但新的标识并不用于序列标注)。同理,在向后追溯的过程中发现了停止符号,则该位字符类别也可用标识例如都用“K”标识。
上述分词模型构建方法,使得分词模型可以识别出停止类的标点符号,同时也可以不丢失字序列的上下文信息,从而使得分词模型更加精确,从提高分词的准确性。
请参阅图2,图2为一个具体实施方式提供的医疗文本分词模型构建方法的部分流程图,其中,所述特征函数包括转移特征函数和状态特征函数;
所述根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率的步骤包括:
S210,根据所述状态特征函数以及每个字的特征,获得每个特征的状态特征值以及状态特征参数。
具体地,特征函数的数量分为两类,一类是状态特征函数,一类是转移特征函数。通过状态特征函数,可以得到每个字的状态特征值以及状态特征参数。状态特征值是特征通过状态特征函数得到的值,通常是0或者1。状态特征参数是状态特征所对应的权重,在训练初始时,可以给状态特征参数随机赋一个初始值,并在训练过程中对状态特征参数的值进行调整。
S220,根据所述转移特征函数以及每个字的特征,获得每个特征的转移特征值以及转移特征参数。
具体地,转移参数是转移特征所对应的权重。字序列中当前字的转移特征依赖于当前字的前一个字的词位标注和当前字的词位标注。如“患者无心肌梗死”中,对于“肌”字的状态特征,前一个字的词位标注预测为“B”,针对“肌”预测其为“M”的状态特征即为BM。
具体地,和得到状态特征值以及状态特征参数的过程类似,特征通过转移特征函数可以得到转移特征值,转移特征值通常是0或者1。转移特征参数是转移特征函数对应的权重,在训练初始时,可以给转移特征参数随机赋一个初始值,并在训练过程中对转移特征参数的值进行调整。
S230,根据状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
具体地,分别计算状态特征值与状态特征参数的内积、转移特征值与转移特征参数的内积,然后将两个内积结果相加,再将相加后得到的结果进行非线性转化,就可以得到每个字的词位标注概率。
请参阅图3,图3为一个具体实施例提供的医疗文本分词模型构建方部分流程图。根据所述损失值,训练分词模型,直到获得目标分词模型的步骤包括:
S310,根据损失值调整状态特征参数以及转移特征参数,训练分词模型,直到得到所述损失值的最小值。
具体地,调整状态特征参数的值以及转移特征参数的值,并根据当前的状态特征值、状态特征参数、转移特征值以及转移特征参数计算得到当前的词位标注联合概率,并进一步得到当前的损失值。调整状态特征参数的值以及转移特征参数的值,并计算损失值,直到得到所述损失值的最小值。进一步地,在最小化损失值的时候,可以直接采用梯度下降算法进行求解,获得调整后的状态特征参数以及调整后的转移特征参数。
S320,根据调整后的状态特征参数以及调整后的转移特征参数,获得分词模型。
具体地,根据调整后的状态特征参数以及调整后的转移特征参数,获得分词模型。可以理解,不停地调整状态特征参数以及转移特征参数的值直到损失值达到最小,从而得到目标分词模型。
请参阅图4,图4为一个具体实施例提供的分词模型构建设备的结构示意图。其中,所述设备包括:
标记序列获得模块410,用于获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
特征获得模块420,用于获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
概率计算模块430,用于根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
联合概率计算模块440,用于根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率;
损失值计算模块450,用于根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获得损失值;
模型构建模块460,用于根据所述损失值,训练分词模型,直到获得目标分词模型。
上述医疗文本的分词构建设备,通过特征参数与状态特征参数计算损失函数,并根据损失函数进行调整,最终获得分词模型,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
作为一种具体实施例,其中,所述词位标记模块包括:
词位标记单元,用于根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
作为一种具体实施例,其中,所述获取特征参数获取模块包括:
字窗口获取模块,用于获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
第一特征模板生成单元,用于根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
作为一种具体实施例,其中,所述获取特征参数获取模块包括:
第二特征模板生成单元,用于获取预先设置的停止符,根据所述停止符号获取特征模板。
作为一种具体实施例,其中,所述特征函数包括转移特征函数以及状态特征函数;
所述概率计算模块包括:
状态特征获取单元,用于根据所述状态特征函数以及每个字的特征,获得每个特征的状态特征值以及状态特征参数;
转移特征获取单元,用于根据所述转移特征函数以及每个字的特征,获得每个特征的转移特征值以及转移特征参数;
词位标注概率计算单元,用于根据所述状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
作为一种具体实施例,其中,所述模型构建模块包括:
特征函数调整单元,用于根据损失值调整状态特征参数以及转移特征参数,训练分词模型,直到得到所述损失值的最小值;
模型获取单元,用于根据调整后的状态特征参数以及调整后的转移特征参数,获得分词模型。
一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,其中,所述计算机指令在被所述处理器执行时实现一种医疗文本的分词模型构建方法,所述方法包括:
获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
根据所述词位标注概率计算获得所述字序列的词位标注联合概率,并根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获得损失值;
根据所述损失值,训练分词模型,直到获得目标分词模型。
作为一个具体实施例,其中,所述计算机指令在被所述处理器执行时实现的所述对所述字序列进行标注,获得标记字序列的步骤包括:
根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的获得特征模板的步骤包括:
获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的获得特征模板的步骤包括:
获取预先设置的停止符,根据所述停止符获取特征模板。
作为一种具体实施例,其中,所述特征函数包括转移特征函数和状态特征函数;
所述计算机指令在被所述处理器执行时实现的,所述根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率的步骤包括:
根据所述状态特征函数以及每个字的特征,获得每个特征的状态特征值以及状态特征参数;
根据所述转移特征函数以及每个字的特征,获得每个特征的转移特征值以及转移特征参数;
根据所述状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的,所述根据所述损失值,训练分词模型,直到获得目标分词模型的步骤包括:
根据损失值调整状态特征参数以及转移特征参数,训练分词模型,直到得到所述损失值的最小值;
根据调整后的状态特征参数以及调整后的转移特征参数,获得分词模型。
一种计算机可读存储介质,所述计算机存储介质上存储有计算机指令,所述计算机指令在被处理器执行时实现一种医疗文本的分词模型构建方法,所述方法包括:
获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
根据所述词位标注概率计算获得所述字序列的词位标注联合概率,并根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获得损失值;
根据所述损失值,训练分词模型,直到获得目标分词模型。
上述可读存储介质,存储所述可读存储介质中的计算机指令在被所述处理器执行时,通过特征参数与状态特征参数计算损失函数,并根据损失函数进行调整,最终获得分词模型,通过不断的调整获得目标分词模型,从而提高了分词的准确性。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的,所述对所述字序列进行标注,获得标记字序列的步骤包括:
根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的,获得特征模板的步骤包括:
获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
作为一种具体实施例,其中,所述计算机指令在被所述处理器执行时实现的获得特征模板的步骤包括:
获取预先设置的停止符,根据所述停止符获取特征模板。
作为一种具体实施例,其中,所述特征函数包括转移特征函数和状态特征函数;
所述计算机指令在被所述处理器执行时实现的,根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率的步骤包括:
根据所述状态特征函数以及每个字的特征,获得每个特征的状态特征值以及状态特征参数;
根据所述转移特征函数以及每个字的特征,获得每个特征的转移特征值以及转移特征参数;
根据所述状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
请参阅图5,图5为一个具体实施例提供的医疗文本的分词方法的流程图,其中,所述方法包括:
S510,获取待分词医疗文本。
具体地,获取一个输入的待分词医疗文本。
S520,利用构建好的分词模型,对所述待分词医疗文本进行分词。
具体地,利用构建好的分词模型对待分词医疗文本进行分词。可以理解,通过上述分词具体实施例的方法进行构建的分词模型,均为本实施例所述的构建好的分词模型。
进一步地,对待分词医疗文本进行切分,获得待分词医疗文本对应的字序列X,在输入变量为X的情况下,通过构建好的分词模型,预测标记字序列Y,计算条件概率P(Y|X)。可以理解,无论是BIO标注方式、BEMS标注方式还是BECMS标注方式,都可以通过比较,获得其中概率最大的词位标注。并根据概率最大的词位标注对待医疗文本进行分词。
在一个具体实施例中,可以通过以下步骤实现构建分词模型并根据构建好的分词模型对待分词文本进行分词。
S1,在大量的训练集中选择训练医疗文本,并对训练医疗文本进行切分,获得训练医疗文本中的字序列。
S2,通过BMCES标注方式对字序列进行标注,得到标记字序列。
S3,获取预先设置的停止符,并根据所述停止符号设定特征模板。
S4,根据特征模版,获得字序列中每个字的特征,并生成特征函数,特征函数包括转移特征函数和状态特征函数。
S5,对于每个字对应的特征,通过状态特征函数,获得状态特征值以及状态参数。通过转移特征函数,获得转移特征值以及转移参数。
S6,根据S5得到的状态特征值、状态参数、转移特征值以及转移参数,计算获得每个字的词位标注概率。
S7,根据每个字的词位标注概率,进一步获得字序列的词位标注联合概率。
S8,将词位标注联合概率与语料库中的标准值作为输入,通过损失函数,获得损失值。其中,语料库采用医疗专用语料库。
S9,通过梯度下降算法,获得调整后的转移参数和调整后的状态参数,并根据调整后的转移参数和调整后的状态参数获得分词模型。
S10,获得一个待分词的医疗文本,并对待分词文本进行切分,获得待分词医疗文本对应的字序列X。
S11,通过构建好的分词模型,预测标记字序列Y,并计算条件概率P(Y|X)。
S12,比较B、M、C、E、S中条件概率最大作为最优词位标注,并根据最优词位标注进行分词。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种医疗文本的分词模型构建方法,其特征在于,所述方法包括:
获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率;
根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获取损失值;
根据所述损失值,训练分词模型,直到获得目标分词模型。
2.根据权利要求1所述的分词模型构建方法,其特征在于,所述对所述字序列进行标注,获得标记字序列的步骤包括:
根据BMCES词位标注格式对所述字序列进行标注,得到BMCES标记字序列,其中,B表示词首,M表示词中,C表示词中标点,E表示词尾,S表示单字词。
3.根据权利要求1所述的分词模型构建方法,其特征在于,所述获得特征模板的步骤包括:
获取预设阈值以及与每一当前字相邻的预设阈值范围内的其他字符;
根据所述预设阈值及预设阈值范围内的其他字符设定特征模板。
4.根据权利要求1所述的分词模型构建方法,其特征在于,所述获得特征模板的步骤包括:
获取预先设置的停止符,根据所述停止符获取特征模板。
5.根据权利要求1所述的分词模型构建方法,其特征在于,所述特征函数包括转移特征函数和状态特征函数;
所述根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率的步骤包括:
根据所述状态特征函数以及每个字的特征,获得每个特征的状态特征值以及状态特征参数;
根据所述转移特征函数以及每个字的特征,获得每个特征的转移特征值以及转移特征参数;
根据所述状态特征值、状态特征参数、转移特征值以及转移特征参数,获得每个字的词位标注概率。
6.根据权利要求1-5任一项所述的分词模型构建方法,其特征在于,所述根据所述损失值,训练分词模型,直到获得目标分词模型的步骤包括:
根据损失值调整状态特征参数以及转移特征参数,训练分词模型,直到得到所述损失值的最小值;
根据调整后的状态特征参数以及调整后的转移特征参数,构建目标分词模型。
7.一种医疗文本的分词模型构建设备,其特征在于,所述设备包括:
标记序列获得模块,用于获取医疗文本中的字序列,并对所述字序列进行标注,获得标记字序列;
特征获得模块,用于获得特征模板,并根据所述特征模板提取所述标记字序列中字的特征;
概率计算模块,用于根据所述特征模板生成特征函数,并根据所述特征函数以及每个字的特征,获得每个字的词位标注概率;
联合概率计算模块,用于根据所述词位标注概率融合计算获得所述字序列的词位标注联合概率;
损失值获取模块,用于根据所述词位标注联合概率与语料库中的标准值,通过损失函数,获取损失值;
模型构建模块,用于根据所述损失值,训练分词模型,直到获得目标分词模型。
8.一种计算机设备,所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令,其特征在于,所述计算机指令在被所述处理器执行时实现权利要求1-6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机存储介质上存储有计算机指令,其特征在于,所述计算机指令在被处理器执行时实现权利要求1-6任一项所述方法的步骤。
10.一种医疗文本的分词方法,其特征在于,所述方法包括:
获取待分词医疗文本;
利用权利要求1-6中任意一项所述的构建方法得到的分词模型,对所述待分词医疗文本进行分词。
CN201711060093.7A 2017-11-01 2017-11-01 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法 Pending CN107908601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711060093.7A CN107908601A (zh) 2017-11-01 2017-11-01 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711060093.7A CN107908601A (zh) 2017-11-01 2017-11-01 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法

Publications (1)

Publication Number Publication Date
CN107908601A true CN107908601A (zh) 2018-04-13

Family

ID=61843150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711060093.7A Pending CN107908601A (zh) 2017-11-01 2017-11-01 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法

Country Status (1)

Country Link
CN (1) CN107908601A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109616215A (zh) * 2018-11-23 2019-04-12 金色熊猫有限公司 医疗数据抽取方法、装置、存储介质及电子设备
CN110516241A (zh) * 2019-08-26 2019-11-29 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133218A1 (en) * 2002-06-28 2008-06-05 Microsoft Corporation Example based machine translation system
CN103176953A (zh) * 2013-03-20 2013-06-26 新浪网技术(中国)有限公司 一种文本处理方法及系统
KR101686114B1 (ko) * 2015-09-25 2017-01-06 (사)전통문화연구회 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
CN106919794A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133218A1 (en) * 2002-06-28 2008-06-05 Microsoft Corporation Example based machine translation system
CN103176953A (zh) * 2013-03-20 2013-06-26 新浪网技术(中国)有限公司 一种文本处理方法及系统
KR101686114B1 (ko) * 2015-09-25 2017-01-06 (사)전통문화연구회 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
CN106919794A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张向君: "《信息分析与数据统计学习》", 28 February 2009, 哈尔滨工程大学出版社 *
方志军 主编: "《计算机导论(第三版)》", 31 August 2017, 中国铁道出版社 *
游治勇: "基于字的分词方法的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
迟呈英: "基于条件随机场的中文分词方法", 《情报杂志》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN109616215A (zh) * 2018-11-23 2019-04-12 金色熊猫有限公司 医疗数据抽取方法、装置、存储介质及电子设备
CN109616215B (zh) * 2018-11-23 2021-07-09 金色熊猫有限公司 医疗数据抽取方法、装置、存储介质及电子设备
CN110516241A (zh) * 2019-08-26 2019-11-29 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
CN110516241B (zh) * 2019-08-26 2021-03-02 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置

Similar Documents

Publication Publication Date Title
CN107908601A (zh) 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法
CN109192255B (zh) 病历结构化方法
CN104011711B (zh) 文本分析系统
CN109192300A (zh) 智能问诊方法、系统、计算机设备和存储介质
CN109670727A (zh) 一种基于众包的分词标注质量评估系统及评估方法
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
CN104035968B (zh) 基于社交网络的训练语料集的构建方法和装置
CN106682397A (zh) 一种基于知识的电子病历质控方法
CN107578798A (zh) 电子病历的处理方法及系统
CN113343703B (zh) 医学实体的分类提取方法、装置、电子设备及存储介质
CN111785366B (zh) 患者治疗方案的确定方法、装置及计算机设备
CN106844351A (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
Bigolin Lanfredi et al. REFLACX, a dataset of reports and eye-tracking data for localization of abnormalities in chest x-rays
CN109065174B (zh) 考虑相似约束的病历主题获取方法及装置
CN109408633A (zh) 一种多层注意力机制的循环神经网络模型的构建方法
CN116092681B (zh) 确定健康指数评分的方法、系统、电子设备及存储介质
CN110874409A (zh) 病情分级预测系统、方法、电子设备及可读存储介质
CN112466462B (zh) 一种基于图深度学习的emr信息关联及演化方法
CN106548778A (zh) 一种字符转换规则的生成方法及装置
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN116386800B (zh) 基于预训练语言模型的医疗病历数据分割方法和系统
CN106845118A (zh) 一种基于电子病历共享文档的辅诊用药系统及方法
CN114420233A (zh) 一种中文电子病历后结构化信息的抽取方法
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN117708306B (zh) 基于层进式问答结构的医学问答架构生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413