发明内容
针对上述缺陷,本发明要解决的技术问题是如何借助人工智能技术对业务专用术语进行聚类和提取实现快速高效地建立专业数据库。
针对上述缺陷,本发明的目的在于提供一种专用术语无监督聚类方法、应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述预处理包括分词、去重、删除停用词。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
优选的,上述方法遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
优选的,上述方法计算单词-单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,得到单词-单词词序关系矩阵W。
优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明提供一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
优选的,上述互联网平台的预处理包括分词、去重、删除停用词。
本发明提供一种专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,对用户上传的文本信息进行分词可以在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
优选的,上述文本信息包括OCR的文字识别和图像识别后的文字输出。
本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序 /指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明利用语义相似度得到了单词-单词的语义关系矩阵,实现了单词语义信息的利用。通过基于滑动窗口的文本遍历算法得到了单词-单词的词序关系矩阵,实现了单词词序信息的利用,提高了原始信息的利用率。本方案在不同维度的单词关系矩阵的基础上,利用了IRM算法,从而避免了Kmeans算法需要事先设定类别数目K的缺点。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取,预处理包括分词、去重、删除停用词,单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
在一个具体的例子中,遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
在一个具体的例子中,方法计算单词-单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,得到单词-单词词序关系矩阵W。
在一个具体的例子中,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
如图2所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法, 应用在服务器端,包括:
S101、对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成;
S102、建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵;
S103、计算单词-单词的词序关系矩阵;
S104、通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类;
S105、将单词的语义信息和词序信息通过关系矩阵的方式进行提取;
S106、利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一个具体例子中,基于语义信息和词序信息进行数据的融合处理,比如心慌、胸闷、心悸,结合高血压、睡眠障碍、心理疾病等形成对应的数据库,从单词类别的提取到数据的融合应用,可以自动实现对疾病的映射分类。
在一个具体例子中,文本中包括“心跳加快”、“心里面不舒服”、“胸闷”、“喘不上气”等,其中有描述性语言,有短句,有长句,通过分词、去重和删除一些停用词。
为了充分利用词汇的语义信息和词序信息,词汇的基本组成是单词,建立单词-单词的关系矩阵。第一个单词-单词关系矩阵S是语义矩阵,矩阵每个元素Sij的值取0或1作为是否逻辑判断。Sij表示了当前元素对应的两个单词i和j是否存在语义相似性。通过BERT预训练模型来得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。然后遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Wij为1,否则为0;经过上面的操作后,就可以得到单词-单词语义关系矩阵。继续计算单词-单词词序关系矩阵W。设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,就可以得到单词-单词词序关系矩阵。
在实施例中,进一步地,模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
得到两个矩阵,包括单词语义关系矩阵和单词词序关系矩阵,这两个矩阵分别代表了单词的语义信息和单词的词序信息。
利用上述两个矩阵进行聚类,选择一种不需要事先设定类别数据K的无监督聚类算法(无限相关模型IRM算法,Infinite Relational Model)
IRM算法是一个基于贝叶斯统计方法的聚类算法,基于如下假设:
从上述三个公式中可以得出,在整体框架中,IRM算法认为每个单词的类别分布服从于CRP(Chinese Restaurant Process)。
类别之间存在某种关系分布,服从于参数为的
,
的贝塔分布(Beta)。
最后单词与单词之间的关系矩阵服从于参数为
的Bernoulli分布。存在
两个单词-单词关系,所以存在两个
矩阵和两个
矩阵,进行联合建模。之后,IRM算法采用
了Gibbs采样进行求解,完成了类别分布
的计算。
经过上述过程,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,之后利用IRM算法对两个关系矩阵进行无监督分类,完成了单词类别的提取。
本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些实施例中,单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
在一些实施例中,模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
在一些实施例中,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些实施例中,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
在一些实施例中,互联网平台的预处理包括分词、去重、删除停用词。
如图3所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法, 应用在服务器端,包括:
S201、对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成;
S202、建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵;
S203、计算单词-单词的词序关系矩阵;
S204、通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类;
S205、将单词的语义信息和词序信息通过关系矩阵的方式进行提取;
S206、利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取;
S207、基于提取的单词类别进行数据融合和二次加工,用于信息交叉验证。
如图4所示,本说明书的一个实施例提供的一种专用术语无监督聚类专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些具体是实施例中,对用户上传的文本信息进行分词可以在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
在一些具体是实施例中,文本信息包括OCR的文字识别和图像识别后的文字输出。
在一些具体的例子中,系统基于图像检测和识别技术识别图片上的具体时间、就医医院、患者姓名、医生姓名、临床诊断结果,对图片进行全文本识别,进一步得到文字内容提取后,通过语义识别形成逻辑性上下文,对文本信息进行采集后分类。
本说明书的一个实施例提供的一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现以下方法:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本说明书的一个实施例提供的一种计算机程序产品,包括计算机程序 /指令,该计算机程序/指令被处理器执行时实现以下方法:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本说明书的一个实施例提供的一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明利用BERT算法计算的语义相似度得到了单词-单词的语义关系矩阵,实现了单词语义信息的利用。通过基于滑动窗口的文本遍历算法得到了单词-单词的词序关系矩阵,实现了单词词序信息的利用。
本发明避免了仅仅依赖于BERT编码而产生的文本词序信息的丢失,从多维度上提高了原始信息的利用率。
本发明在两个维度的单词关系矩阵的基础上,利用了IRM算法,从而避免了Kmeans算法需要事先设定类别数目K的缺点,从而实现了类别数目的自动推断。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。