CN109471950B - 腹部超声文本数据的结构化知识网络的构建方法 - Google Patents

腹部超声文本数据的结构化知识网络的构建方法 Download PDF

Info

Publication number
CN109471950B
CN109471950B CN201811376501.4A CN201811376501A CN109471950B CN 109471950 B CN109471950 B CN 109471950B CN 201811376501 A CN201811376501 A CN 201811376501A CN 109471950 B CN109471950 B CN 109471950B
Authority
CN
China
Prior art keywords
text
word
text data
abdominal
short sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811376501.4A
Other languages
English (en)
Other versions
CN109471950A (zh
Inventor
尚小溥
许吴环
张润彤
朱晓敏
朱燊
苑舒婷
姜德友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201811376501.4A priority Critical patent/CN109471950B/zh
Publication of CN109471950A publication Critical patent/CN109471950A/zh
Application granted granted Critical
Publication of CN109471950B publication Critical patent/CN109471950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种腹部超声文本数据的结构化知识网络的构建方法。该方法包括:利用分词工具对中文的腹部超声文本数据进行文本分词处理,得到所述腹部超声文本数据的文本集合;计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类,对文本聚类后的腹部超声文本数据中的短句进行定位与映射;根据所述短句的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记,基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络。本发明的方法建立的超声检查知识图谱充分保留了超声检查知识,可结构化存储,为更高层次的智能诊断决策应用场景提供数据基础。

Description

腹部超声文本数据的结构化知识网络的构建方法
技术领域
本发明涉及文本结构化处理技术领域,尤其涉及一种腹部超声文本数据的结构化知识网络的构建方法。
背景技术
医学病理文本作为一类重要的非结构化临床文档,对临床诊断至关重要。在实际应用中,需要对中文的医学病理文本数据进行结构化处理。
近年来国内开始有学者关注对电子病历的文本挖掘工作。有研究专门针对中文电子病历文本,在利用既有分词工具基础上的分词方法,其精度最高可达78.06%;有研究以电子病历文本为基础,挖掘出院记录部分潜在语义,但该研究只针对四种治疗方案进行了评估,评估结果粒度较大,应用于临床实践的针对性不强;还有一些研究基于电子病历开展临床决策支持的相关探索。这些研究的重点多在电子病历中的结构化和半结构化数据,或是较有针对性地抽取特定关键词等信息,当前研究还缺少对非结构化医疗文本结构化处理,以及知识挖掘。
超声检查文本通常主要涉及肝、胆、胰、脾、肾五个器官的检查内容,检查记录一般在200~300字左右,且包含较多的专用词和习惯用语,文本复杂度较高。有研究基于信息抽取的思想,针对超声检查中的甲状腺描述文本进行结构化处理,但其并未全面覆盖超声检查文本,也没有进一步建立起超声检查文本结构化后内容的关系网络。
发明内容
本发明的实施例提供了一种腹部超声文本数据的结构化知识网络的构建方法,以实现有效地构建腹部超声文本数据的知识网络。
为了实现上述目的,本发明采取了如下技术方案。
一种腹部超声文本数据的结构化知识网络的构建方法,包括:
利用分词工具对中文的腹部超声文本数据进行文本分词处理,得到所述腹部超声文本数据的文本集合;
计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类,对文本聚类后的腹部超声文本数据中的短句进行定位与映射;
根据所述短句的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记,基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络。
进一步地,所述的利用分词工具对中文的腹部超声文本数据进行文本分词处理,得到所述腹部超声文本数据的文本集合,包括:
利用分词工具对中文的腹部超声文本数据进行文本分词,采用基于词共现分析的分词校正方法识别出文本分词结果中的过切分,并对过切分进行校正处理,所述过切分为将本应该合并在一起的字、词和词组切分开,根据校正处理后的分词结果得到所述腹部超声文本数据的文本集合。
进一步地,所述的采用基于词共现分析的分词校正方法识别出文本分词结果中的过切分,并对过切分进行校正处理,包括:
设所述腹部超声文本数据为S,S={W1,W2,...,Wn},Wi表示S中的第i个词,Wi+1表示S中的第i+1个词,Cnt(wi,wi+1)表示词对wiwi+1在S中出现的次数;
当两个词wi和wi+1的中间没有标点符号时,词对wiwi+1的右共现频率
Figure BDA0001870872650000021
的计算公式为:
Figure BDA0001870872650000031
其中,A是S中所有位于wi右边的词的集合;
词对wiwi+1的左共现频率
Figure BDA0001870872650000032
的计算公式如下:
Figure BDA0001870872650000033
其中,B是S中所有位于词wi+1左边的词的集合。
将右共现频率或左共现频率大于等于0.9的词对wiwi+1作为应该合并在一起的候选新词;
当所述文本分词结果中的候选新词wiwi+1被分成两个单独的词wi和wi+1时,则将所述文本分词结果中的两个单独的词wi和wi+1校正为合并在一起的新词wiwi+1
进一步地,所述的计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类,包括:
采用海明距离计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,将所述相似度矩阵通过谱聚类算法聚为k类,实现所述腹部超声文本数据的文本聚类。
进一步地,所述的对文本聚类后的腹部超声文本数据中的短句进行定位与映射,包括:
选取n条文本聚类后的腹部超声文本数据,对每条腹部超声文本数据以标点符号为界进行短句切分;
选取第一条腹部超声文本数据中第m个短句
Figure BDA0001870872650000034
采用海明距离计算出
Figure BDA0001870872650000035
与第i条腹部超声文本数据中的第j个短句
Figure BDA0001870872650000036
之间的相似度
Figure BDA0001870872650000037
其中i=2,3,...,n;
提取第i条腹部超声文本数据中的与第一条腹部超声文本数据中第m个短句相似度最高的短句,两个相似度最高的短句之间构成映射;
对第一条腹部超声文本数据中的所有短句进行上述处理,得到第一条腹部超声文本数据与第i条腹部超声文本数据之间的相似短句映射表,该相似短句映射表中包括多个短句组,每个短句组中包括两个构成映射的分别来自第一条腹部超声文本数据与第i条腹部超声文本数据的短句。
进一步地,所述的根据所述短句的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记,包括:
(1)统计出所述相似短句映射表中的短句组中所有短句的出现频数,选取出现频数最多的短句作为标准句;
(2)选取与所述标准句之间相似度高于0.5的短句构成短句集合,该短句集合中短句按照相似度的值的大小进行降序或者升序排序;
(3)基于所述腹部超声文本数据的文本集合对所述短句集合中的短句进行分词;
(4)分别以每一个短句的分词结果为基础与其后面的短句的分词结果作比较,当后面的短句的分词结果为前面的短句的分词结果的子集,则将后面的短句从所述短句集合中删除,得到精简后的短句集合;
(5)对所述精简后的短句集合中的短句,统计短句中每个词出现的次数,以及每个词出现的次数与精简后的短句集合中短句总数之比值,将出现次数最多且所述比值高于0.8的词作为实体;
(6)在每个短句中找到实体出现的位置后,选取实体后面的词,判断该词是不是最末尾的词,如果是,则执行(7);否则,执行(8);
(7)判断该词的频数是否小于等于P,若是,则判断该词为值;否则,判断该词是属性;
(8)判断该词的频数或该词的下一词的频数是否大于Q,若是,则判断该词为属性;否则,判断该词为值;参数P和Q设置为:P=Q=腹部超声文本数据中中包含实体的短句数目/2。
进一步地,所述的基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络,包括:
设置腹部超声文本数据中的一级实体为肝脏、胆囊、胰腺、脾脏和双肾五个检查器官,将识别出来的一条实体、属性和值的记录组织成实体-属性-属性值的结构化形式,判断实体是否属于所述一级实体,若是,则继续处理下一条记录;否则,在该记录前增加对应的一级实体,再继续处理下一条记录,直到将所有的记录都组织成实体-属性-属性值的结构化形式;
通过可视化工具将所有的实体-属性-属性值的结构化形式整合成腹部超声文本数据的结构化知识网络。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例的腹部超声文本数据的结构化知识网络的构建方法通过对超声检查医疗文本数据进行较高精度的结构化识别,在此基础上,具备自动构建知识网络的能力。建立的超声检查知识图谱充分保留了超声检查知识,可结构化存储,为更高层次的智能诊断决策应用场景提供数据基础。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种腹部超声文本数据的结构化知识网络的构建方法的实现原理示意图;
图2为本发明实施例提供的一种腹部超声文本数据的结构化知识网络的构建方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提出的腹部超声文本数据的结构化知识网络的构建方法输入的是批量的超声检查自由文本,输出的是结构化后的数据,可以存储在关系型数据库中。该方法主要由分词处理、内容定位、结构化识别三个主要步骤组成,本发明实施例提供的一种腹部超声文本数据的结构化知识网络的实现原理示意图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:
步骤S210、利用既有工具对腹部超声文本数据进行中文文本分词处理,得到所述腹部超声文本数据的文本集合。
当前已经存在一些针对自然语言处理的工具,使用较多且能够支持中文分词处理的有:斯坦福大学开发的NLP工具包Stanford CoreNLP、Jieba分词工具、哈尔滨工业大学研发的LTP。其中Stanford NLP和Jieba是开源工具,也是当前使用量较大的分词工具,本发明实施例采用Stanford NLP来进行初步的文本切分处理。在处理日常语言方面,StanfordNLP具有较高的性能,但是对于相对专业的医学文本,其处理能力欠佳。一种可行的方式是增加专业词库,但这种方式存在人工添加与机器自动添加两种技术手段。
本发明实施例在通过既有NLP工具处理的基础上,采用基于词共现分析的分词校正,实现专业词库的自动补充。对于Standford NLP等相关分词工具,一般情况下,若出现了词库中没有的新词,会通过特定算法实现切分。对于非理想状态的切分结果,存在三种情况:
一是分词算法将本可以合并在一起的字/词切分开,相应的切分结果无法将可固定搭配的词/词组呈现出来,本发明称为“过切分”;
另一种情形是分词算法把本应该切分为两个或者更多的字/词,判断为一个词/词组的内容,本发明称为“欠切分”;
第三种情形是分词工具在不恰当的位置进行了切分,将原本应该在一起的词分开,而不应该在一起的词切分在了一起,本发明称为“误切分”。
由于超声文本中存在大量的缩略词和特殊名词等,对其分词主要是“过切分”(见表1(a))和“误切分”(见表1(b))的问题。对切分结果的判断,应该考察切分后的词/词组其是否正确表达了文本的含义。
表1非理想状态下的文本切分举例
(a)过切分 (b)误切分
未|见|明显|异常(斯坦福NLP) 腔|内强|回声(斯坦福NLP)
未见|明显异常(理想切分) 腔内|强回声(理想切分)
对于过切分的处理,本发明在研究中采用了基于词共现分析的分词校正方法,具体通过对既有分词工具得到的初步结果进行词共现分析,识别和判断非理想情况的切分,并实现对切分结果的校正优化。同时,过切分情况识别的新词也可以对误切分情况带来一定的改善。如,存在“强回声”被过切分为“强”+“回声”,当“强回声”被正确识别时,表1(b)中的误切分也可被改善。
本发明采取的词共现频率计算方式如下:
令S={W1,W2,...,Wn},S代表某条数据记录,Wi表示该条数据记录的第i个词。Wi在文本中出现的次数记作词频Cnt。
定义1.词对(wi,wi+1)的右共现频率定义:
Figure BDA0001870872650000081
其中,A是文本中所有位于wi右边的词的集合。
定义2.词对(wi,wi+1)的左共现频率定义:
Figure BDA0001870872650000091
其中,B是文本中所有位于词wi+1左边的词的集合。
算法1:基于词共现分析的医学术语分词校正算法的核心伪代码如下:
Figure BDA0001870872650000092
针对实验所采用的数据及实验分析,将阈值C设置为0.9,即右共现频率或左共现频率大于0.9的组合词“WiWi+1”为候选新词。根据实验结果分析,阈值为0.9时能过滤绝大多数干扰项,同时保留较多的新词。当所述文本分词结果中的候选新词wiwi+1被分成两个单独的词wi和wi+1时,则将所述文本分词结果中的两个单独的词wi和wi+1校正为合并在一起的新词wiwi+1。然后,根据校正处理后的分词结果得到所述腹部超声文本数据的文本集合,得到基于超声文本的领域词典Dic。
算法1中输入的词对(wi,wi+1)满足如下规则:若两个词由标点符号隔开,则不做共现分析;第2和第6步中,设置某个词出现次数大于1才做共现统计,是因为只出现一次的词根据定义1和2计算的共现频率一定为1,然而这些词对并不符合本发明发现新词的思想,且绝大多数均为干扰项,故过滤。对于一个专业术语被切分成三个或四个词的情况,本发明通过迭代上述分词算法进行处理。例如,“肝内外胆管”初始被分为“肝”+“内外”+“胆管”,第一次分词矫正时得到组合词“肝内外”,加入词典Dic后,第二次被分为“肝内外”+“胆管”,第二次可发现新词“肝内外胆管”。在实验分析中发现,超声检查文本中一个专业术语最多被切分成不超过四个词,且第三次执行时可发现的新词数量已经很少,故迭代次数设置为3。
步骤S220、计算文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类。
由于文本聚类是依赖于文本之间的相似度,所以需要去计算每两个文本之间的相似度,从而得到文本相似度矩阵,进而利用相似度矩阵实现文本聚类,达到提高后续实体、属性、值的识别能力,提升识别精度的目的。
医学文本采用的都是相对专业和直接的表述方式,尽管医生可能使用不同的词汇描述同一种情形,但基本不存在一词多义的情况,因此文字层面的相似度即可评估内容的相似程度。
本发明采用海明距离来评估每一例超声报告与其它报告的相似程度,并根据不同的相似度对这些超声文本进行聚类,即同一类的超声文本具有较高语言相似度,而不同类别的超声检查文本之间的相似度较低。又因为每条超声检查文本记录较长(200~300字),且数据量较大,所以本发明采用SimHash算法的降维思想,再将得到的相似度矩阵通过谱聚类算法聚为k类。
算法2:超声文本聚类算法的伪代码如下:
Figure BDA0001870872650000111
(1)抽取文本中的特征词及其权重,权重为该词在这条记录中出现的次数;
(2)对特征词取传统的hash值,并与权重叠加,算出文本的FingerPrint值;
(3)计算出任意两个文本之间FingerPrint值的海明距离d(si,sj)=HammingDistance(si,sj);
(4)得到n×n的相似度矩阵M,n代表记录数,相似度sim(si,sj)=1-d(si,sj)/hashBits;
(5)将M作为参数输入谱聚类算法,设置另一参数将文本聚为K类。
然后,相似短句定位映射。
在对超声文本进行了相似度聚类分析的基础上,进而实现各类超声文本中短句相对位置的定位与映射。如腹部超声文本数据a与腹部超声文本数据b中有数量相近的若干短句,本发明试图建立a[x]与b[y]之间的映射关系,映射目的在于识别出不同超声文本中对同一现象的描述部分。本发明同样采用了上述海明距离来评估不同超声报告短句之间的相似程度。
算法3:超声文本中的短文本相对位置映射
(1)对每条腹部超声文本数据以标点符号为界进行短句切分;
(2)计算第i条腹部超声文本数据中的短句与第一条腹部超声文本数据中第m个短句的相似度
Figure BDA0001870872650000121
其中i=2,3,...,n;
(3)提取第i条腹部超声文本数据中的与第一条腹部超声文本数据中第m个短句相似度最高的短句,两个相似度最高的短句之间构成映射;
(4)对第一条腹部超声文本数据中的所有短句进行上述处理,得到第一条腹部超声文本数据与第i条腹部超声文本数据之间的相似短句映射表,该相似短句映射表中包括多个短句组,每个短句组中包括两个构成映射的分别来自第一条腹部超声文本数据与第i条腹部超声文本数据的短句。
基于上述算法,得到了每一例超声检查文本中的短句与其它超声文本短句的相似度,进而选取与当前短句相似度最高的其它病例短句,作为与该短句相对位置匹配的短句。短句相对位置的映射,其实是对不同超声检查病例中描述相同语义内容的短句的识别与定位,为后续实体、属性、值的识别奠定基础。
步骤S230、对文本聚类后的腹部超声文本数据中短句相对位置进行定位与映射,根据所述短句相对位置的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记。
首先,实体、属性、值的识别。
在实现了对超声检查文本切分以及短句映射的基础上,可进一步通过算法实现对切分内容进行“实体、属性、值”的标记,从而建立起具有层次结构的超声知识网络。实体和属性作为相对客观描述的描述对象,在超声检查文本中其用词一般相对固定。值作为实体和属性的具体定量或定性内容,其往往呈现出较为丰富的内容。且由于中文的书写习惯,“值”通常出现在短句的末尾,表现为数字或文字形式,然而在分析中发现,超声文本存在一些“汉字值”出现在属性之前,如“类圆形/无回声”。据此,本发明实施例根据具有映射标记的短句内固定词语与相对变化词语的规律特征,识别实体、属性以及属性值。
根据相似短句定位映射的结果,我们对于每一组相似的短句进行实体抽取。对于某一组相似短句,有很多短句会重复出现,首先在组内统计每个短句出现的次数,选取出现次数最多的短句作为实体抽取的标准。选取与标准句相似度高于50%(选取相似度高于50%的短句是为了过滤掉垃圾数据)的短句构成一个集合。在该集合中,对于每一个短句进行分词,并将每一个短句的分词结果保存。分别以每一个短句的分词结果为基础与其后面的短句分词结果作比较,如后者为前者的子集则认为两个短句的描述一致,将后者短句删除。如:“肝脏大小形态可”、“肝脏形态可”、“肝脏形态大小可”、“肝脏形态饱满”、“肝脏形态失常”、“肝脏形态略饱满”、“肝脏失常态”,其中“肝脏大小形态可”的分词结果记为A{肝脏,大小,形态,可},“肝脏形态可”的分词结果记为B{肝脏,形态,可},“肝脏形态大小可”的分词结果记为C{肝脏,形态,大小,可}。B和C均为A的子集,所以将“肝脏形态可”、“肝脏形态大小可”从集合中移除。所以集合变为{肝脏大小形态可,肝脏形态饱满,肝脏形态失常,肝脏形态略饱满,肝脏失常态}。对集合中剩下的短句分词,并统计每个词出现的次数及相对于短句总数的频率,其中出现次数最多且频率高于80%(理论上实体在每个短句中都出现,但存在一些特殊的短句,经过大量实验观察,特殊短句出现的频率会小于20%,所以可认为出现频率高于80%的词为实体)的词可认为是实体。
识别出实体后,在每个短句找到实体出现的位置,如果存在的话判断实体后面的词是否为最后一个词,如果是,且词频为1,则为值,否则为属性;如果不是,且wi或wi+1(wi+1不是最末尾的词)在集合一半及以上的包含实体的短句中出现了,则该词记作属性,否则记为值。如在上面例子中,分词后出现次数最多的词为“肝脏”且频率为1.0,所以“肝脏”记为实体。在第一句中,实体后面的词为“大小”,所以接着看下一个词,“形态”在一半以上的短句中出现了,所以“大小”、“形态”记为属性,最后一词“可”记为值。后面同理,最终可得到实体抽取结果示例如表2所示。
表2实体抽取结果示例
Figure BDA0001870872650000141
算法4:实体、属性、值的识别
(1)统计出所述相似短句映射表中的短句组中所有短句的出现频数,选取出现频数最多的短句作为标准句;
(2)选取与所述标准句相似度高于0.5的短句构成短句集合,该短句集合中短句按照相似度的值的大小进行降序或者升序排序;
(3)基于所述腹部超声文本数据的文本集合对所述短句集合中的短句进行分词;
(4)分别以每一个短句的分词结果为基础与其后面的短句分词结果作比较,当后面的短句的分词结果为前面的短句的分词结果的子集,则将后面的短句从所述短句集合中删除,得到精简后的短句集合;
(5)对所述精简后的短句集合中的短句,统计每个词出现的次数,以及每个词出现的次数与精简后的短句集合中短句总数之比值,出现次数最多且上述比值高于0.8的词为实体;
(6)在每个短句找到实体出现的位置,如果存在实体,选取实体后面的词,判断该词是不是最末尾的词,如果是,则执行(7);否则执行(8);
(7)判断该词的频数是否小于等于P,若是,则判断该词为值;否则,判断该词是属性;
(8)判断该词的频数或该词的下一词的频数(不是最后一词)是否大于Q,若是,则判断该词为属性;否则,判断该词为值。
(9)根据本发明选用的实验数据,这里参数P和Q设置为:P=Q=S中包含实体的短句数目/2,此时取得较好的识别效果。
步骤S240、基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络。
实体、属性、值的识别主要在短句范围内识别,基于识别结果,需要将上述内容有机组成关系网络。对于腹部超声,一般情况需要检查:肝、胆、胰、脾、肾五个器官。
据此场景,本发明以关键词为依据,将上述器官作为超声文本描述对象的分隔符,从而实现对不同器官描述的平行关系区分,在同一个器官描述部分,相关短句为平行关系。本文结构化存储的一般形式为:(一级实体[,二级实体][,属性][,属性值])。其中,一级实体主要为肝脏、胆囊、胰腺、脾脏和双肾五个检查器官;在(1)中,“属性”或“属性值”可能出现为空的情况。最终,可通过可视化工具(如,D3.js),将上述具有层次结构的结构化记录整合成知识网络。
将识别出来的一条实体、属性和值的记录组织成实体-属性-属性值的结构化形式,判断实体是否属于所述一级实体,若是,则继续处理下一条记录;否则,在该记录前增加对应的一级实体,再继续处理下一条记录,直到将所有的记录都组织成实体-属性-属性值的结构化形式。
通过可视化工具将所有的实体-属性-属性值的结构化形式整合成腹部超声文本数据的结构化知识网络。
综上所述,本发明实施例的腹部超声文本数据的结构化知识网络的构建方法通过对超声检查医疗文本数据进行较高精度的结构化识别,在此基础上,具备自动构建知识网络的能力。建立的超声检查知识图谱充分保留了超声检查知识,可结构化存储,为更高层次的智能诊断决策应用场景提供数据基础。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种腹部超声文本数据的结构化知识网络的构建方法,其特征在于,包括:
利用分词工具对中文的腹部超声文本数据进行文本分词处理,得到所述腹部超声文本数据的文本集合;
计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类,对文本聚类后的腹部超声文本数据中的短句进行定位与映射;
根据所述短句的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记,基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络;
所述的对文本聚类后的腹部超声文本数据中的短句进行定位与映射,包括:
选取n条文本聚类后的腹部超声文本数据,对每条腹部超声文本数据以标点符号为界进行短句切分;
选取第一条腹部超声文本数据中第m个短句
Figure FDA0003267728100000011
采用海明距离计算出
Figure FDA0003267728100000012
与第i条腹部超声文本数据中的第j个短句
Figure FDA0003267728100000013
之间的相似度
Figure FDA0003267728100000014
其中i=2,3,...,n;
提取第i条腹部超声文本数据中的与第一条腹部超声文本数据中第m个短句相似度最高的短句,两个相似度最高的短句之间构成映射;
对第一条腹部超声文本数据中的所有短句进行上述处理,得到第一条腹部超声文本数据与第i条腹部超声文本数据之间的相似短句映射表,该相似短句映射表中包括多个短句组,每个短句组中包括两个构成映射的分别来自第一条腹部超声文本数据与第i条腹部超声文本数据的短句;
所述的根据所述短句的定位与映射结果通过算法对所述腹部超声文本数据进行实体、属性和值的标记,包括:
(1)统计出所述相似短句映射表中的短句组中所有短句的出现频数,选取出现频数最多的短句作为标准句;
(2)选取与所述标准句之间相似度高于0.5的短句构成短句集合,该短句集合中短句按照相似度的值的大小进行降序或者升序排序;
(3)基于所述腹部超声文本数据的文本集合对所述短句集合中的短句进行分词;
(4)分别以每一个短句的分词结果为基础与其后面的短句的分词结果作比较,当后面的短句的分词结果为前面的短句的分词结果的子集,则将后面的短句从所述短句集合中删除,得到精简后的短句集合;
(5)对所述精简后的短句集合中的短句,统计短句中每个词出现的次数,以及每个词出现的次数与精简后的短句集合中短句总数之比值,将出现次数最多且所述比值高于0.8的词作为实体;
(6)在每个短句中找到实体出现的位置后,选取实体后面的词,判断该词是不是最末尾的词,如果是,则执行(7);否则,执行(8);
(7)判断该词的频数是否小于等于P,若是,则判断该词为值;否则,判断该词是属性;
(8)判断该词的频数或该词的下一词的频数是否大于Q,若是,则判断该词为属性;否则,判断该词为值;参数P和Q设置为:P=Q=腹部超声文本数据中包含实体的短句数目/2。
2.根据权利要求1所述的方法,其特征在于,所述的利用分词工具对中文的腹部超声文本数据进行文本分词处理,得到所述腹部超声文本数据的文本集合,包括:
利用分词工具对中文的腹部超声文本数据进行文本分词,采用基于词共现分析的分词校正方法识别出文本分词结果中的过切分,并对过切分进行校正处理,所述过切分为将本应该合并在一起的字、词和词组切分开,根据校正处理后的分词结果得到所述腹部超声文本数据的文本集合。
3.根据权利要求2所述的方法,其特征在于,所述的采用基于词共现分析的分词校正方法识别出文本分词结果中的过切分,并对过切分进行校正处理,包括:
设所述腹部超声文本数据为S,S={W1,W2,...,Wn},Wi表示S中的第i个词,Wi+1表示S中的第i+1个词,Cnt(wi,wi+1)表示词对wiwi+1在S中出现的次数;
当两个词wi和wi+1的中间没有标点符号时,词对wiwi+1的右共现频率
Figure FDA0003267728100000031
的计算公式为:
Figure FDA0003267728100000032
其中,A是S中所有位于wi右边的词的集合;
词对wiwi+1的左共现频率
Figure FDA0003267728100000033
的计算公式如下:
Figure FDA0003267728100000034
其中,B是S中所有位于词wi+1左边的词的集合;
将右共现频率或左共现频率大于等于0.9的词对wiwi+1作为应该合并在一起的候选新词;
当所述文本分词结果中的候选新词wiwi+1被分成两个单独的词wi和wi+1时,则将所述文本分词结果中的两个单独的词wi和wi+1校正为合并在一起的新词wiwi+1
4.根据权利要求3所述的方法,其特征在于,所述的计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,利用文本相似度矩阵实现所述腹部超声文本数据的文本聚类,包括:
采用海明距离计算所述文本集合中不同文本之间的相似度,根据文本之间的相似度构建文本相似度矩阵,将所述相似度矩阵通过谱聚类算法聚为k类,实现所述腹部超声文本数据的文本聚类。
5.根据权利要求1所述的方法,其特征在于,所述的基于实体、属性和值构建所述腹部超声文本数据的结构化知识网络,包括:
设置腹部超声文本数据中的一级实体为肝脏、胆囊、胰腺、脾脏和双肾五个检查器官,将识别出来的一条实体、属性和值的记录组织成实体-属性-属性值的结构化形式,判断实体是否属于所述一级实体,若是,则继续处理下一条记录;否则,在该记录前增加对应的一级实体,再继续处理下一条记录,直到将所有的记录都组织成实体-属性-属性值的结构化形式;
通过可视化工具将所有的实体-属性-属性值的结构化形式整合成腹部超声文本数据的结构化知识网络。
CN201811376501.4A 2018-11-19 2018-11-19 腹部超声文本数据的结构化知识网络的构建方法 Active CN109471950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811376501.4A CN109471950B (zh) 2018-11-19 2018-11-19 腹部超声文本数据的结构化知识网络的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811376501.4A CN109471950B (zh) 2018-11-19 2018-11-19 腹部超声文本数据的结构化知识网络的构建方法

Publications (2)

Publication Number Publication Date
CN109471950A CN109471950A (zh) 2019-03-15
CN109471950B true CN109471950B (zh) 2022-04-01

Family

ID=65672719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811376501.4A Active CN109471950B (zh) 2018-11-19 2018-11-19 腹部超声文本数据的结构化知识网络的构建方法

Country Status (1)

Country Link
CN (1) CN109471950B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826326B (zh) * 2019-10-30 2022-09-30 中国人民解放军海军航空大学 一种基于文本分类的小样本数据描述规范化预处理方法
CN111125100A (zh) * 2019-12-12 2020-05-08 东软集团股份有限公司 数据存储方法、装置、存储介质及电子设备
CN111599463B (zh) * 2020-05-09 2023-07-14 吾征智能技术(北京)有限公司 基于声音认知模型的智能辅助诊断系统
CN111653359B (zh) * 2020-05-30 2023-09-08 吾征智能技术(北京)有限公司 一种出血性疾病的智能预测模型构建方法和预测系统
CN111949801B (zh) * 2020-07-27 2023-10-24 西北工业大学 医生经验知识与超声影像信息的知识图谱融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139708A (ja) * 2004-11-15 2006-06-01 Ricoh Co Ltd テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN106502982A (zh) * 2016-10-13 2017-03-15 东华大学 非结构化中文乳腺超声文本的结构化处理方法
CN107908621A (zh) * 2017-11-16 2018-04-13 东华大学 基于超声检查报告文本数据的乳腺肿瘤风险性评估系统
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139708A (ja) * 2004-11-15 2006-06-01 Ricoh Co Ltd テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN106502982A (zh) * 2016-10-13 2017-03-15 东华大学 非结构化中文乳腺超声文本的结构化处理方法
CN107908621A (zh) * 2017-11-16 2018-04-13 东华大学 基于超声检查报告文本数据的乳腺肿瘤风险性评估系统
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于依存句法分析的超声检查报告结构化处理方法;田驰远;《中国优秀硕士学位论文全文数据库》;20170515(第201705期);I138-1270 *

Also Published As

Publication number Publication date
CN109471950A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109471950B (zh) 腹部超声文本数据的结构化知识网络的构建方法
Korhonen Subcategorization acquisition
Chen et al. Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
US20070073745A1 (en) Similarity metric for semantic profiling
Zhu et al. A study of damp-heat syndrome classification using Word2vec and TF-IDF
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
Alexandrov et al. An approach to clustering abstracts
Van Durme et al. Open knowledge extraction through compositional language processing
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
CN104317783A (zh) 一种语义关系密切度的计算方法
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
Wong et al. Ontology learning and knowledge discovery using the web: challenges and recent advances
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN115186671A (zh) 一种基于外延的将名词短语映射到描述逻辑概念的方法
Liu et al. Modelling and implementation of a knowledge question-answering system for product quality problem based on knowledge graph
CN112380877A (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
CN108536792A (zh) 一种基于多词的文本表示策略的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant