CN108461111A

CN108461111A - 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质

Info

Publication number: CN108461111A
Application number: CN201810222612.3A
Authority: CN
Inventors: 陈波
Original assignee: Chongqing Medical University
Current assignee: Chongqing Medical University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-08-28

Abstract

本发明实施例提供一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质，用于数据处理领域，该方法包括：对获取到的第一中文医疗文本和第二中文医疗文本进行分词处理，获取至少一个第一词元和至少一个第二词元；基于所述至少一个第一词元，获取至少一个第一权重值；基于所述至少一个第二词元，获取至少一个第二权重值；基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取第一特征向量；基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取第二特征向量；基于第一特征向量和第二特征向量，获取用于表征第一中文医疗文本和第二中文医疗文本相似度的相似度度量值。本发明能实现电子病历查重。

Description

中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质

技术领域

本发明涉及数据处理领域，具体而言，涉及一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质。

背景技术

随着电子病历的广泛使用，在临床文档中越来越多使用了复制与粘贴功能(copy-and-paste function，CPF)。在住院病历记录中医务人员使用CPF 的情况越来越频繁。当复制信息在同一病历内或移动粘贴到多个病历时，具有促进沟通、提高效率的作用，更重要的是可以节省时间，有机会与病人更多地相处。但在具备这些好处的同时，也面临医疗记录的真实性潜在风险，例如复制和粘贴不准确或过时的信息，不必要的冗长的病程记录及传播虚假信息等。

发明内容

鉴于此，本发明实施例的目的在于提供一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质以实现电子病历查重，继而解决上述问题。

第一方面，本发明实施例提供一种中文医疗文本查重方法，所述方法包括：对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；基于所述至少一个第一词元，获取至少一个第一权重值；基于所述至少一个第二词元，获取至少一个第二权重值；基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

第二方面，本发明实施例提供一种中文医疗文本查重装置，所述装置包括：第一分词处理单元，用于对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；第二分词处理单元，用于对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；第一权重获取单元，用于基于所述至少一个第一词元，获取至少一个第一权重值；第二权重获取单元，用于基于所述至少一个第二词元，获取至少一个第二权重值；第一特征向量获取单元，用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；第二特征向量获取单元，用于基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；相似度度量值获取单元，用于基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

第三方面，本发明实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时，所述电子设备执行以下操作：对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；基于所述至少一个第一词元，获取至少一个第一权重值；基于所述至少一个第二词元，获取至少一个第二权重值；基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

第四方面，本发明实施例提供一种计算机可读取存储介质，所述计算机可读取存储介质存储有程序指令，所述程序指令被读取并运行时，执行所述中文医疗文本查重方法。

本发明实施例提供了中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质，所述方法包括：对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；基于所述至少一个第一词元，获取至少一个第一权重值；基于所述至少一个第二词元，获取至少一个第二权重值；基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。通过本发明能够实现电子病历查重，继而减少因电子病历功能泛用带来的潜在风险，保障患者安全。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种电子设备的结构框图；

图2为本发明实施例提供的一种中文医疗文本查重方法的流程图；

图3为本发明实施例提供的一种中文医疗文本查重装置的单元示意图；

图4本发明实施例还提供一种实现中文医疗文本查重装置的结构示意图。

图标：100-电子设备；101-存储器；102-存储控制器；103-处理器；104- 外设接口；105-射频模块；106-音频模块；107-触控屏幕；200-中文医疗文本查重装置；210-第一分词处理单元；220-第二分词处理单元；230-第一权重获取单元；240-第二权重获取单元；250-第一特征向量获取单元；260-第二特征向量获取单元；270-相似度度量值获取单元；403-通信接口。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了一种可应用于本发明实施例中的电子设备100的结构框图。如图1所示，电子设备100包括存储器101、存储控制器102，一个或多个 (图中仅示出一个)处理器103、外设接口104、射频模块105、音频模块106、触控屏幕107等。这些组件通过一条或多条通讯总线/信号线相互通讯。

存储器101可用于存储软件程序以及模块，如本发明实施例中的中文医疗文本查重方法对应的程序指令/模块，处理器103通过运行存储在存储器101内的软件程序以及模块，从而执行各种功能应用以及数据处理，如本发明实施例提供的中文医疗文本查重方法。

存储器101可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器 103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

射频模块105用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。

音频模块106向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

触控屏幕107在电子设备100与用户之间同时提供一个输出及输入界面。具体地，触控屏幕107向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频及其任意组合。

可以理解，图1所示的结构仅为示意，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1 中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本发明实施例提供的一种中文医疗文本查重方法的流程图，所述中文医疗文本查重方法具体包括如下步骤：

步骤S100：对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元。

步骤S200：对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元。

具体地，对需要进行查重的第一中文医疗文本和第二中文医疗文本分别进行分词处理，根据训练好的词典中的词语信息分别对第一中文医疗文本和第二中文医疗文字中的每个字符串进行切分，获取一个字符串中所有可能生成的词，其中，每个字符串对应着至少一种切分组合，例如：对字符串“快乐地绽放”进行切分，会存在“快乐/地/绽放”、“快乐地/绽放”两种可能切分情况，接着，基于这两种切分情况找出最可能出现的一种切分情况，继而获取词元信息。

步骤S300：基于所述至少一个第一词元，获取至少一个第一权重值。

具体地，根据获取到的所述至少一个第一词元，计算每个第一词元的权重值，其中，一个词元对应一个权重值，第一权重值越大，表示第一词元在所述第一中文医疗文本中出现的频率越高。

步骤S400：基于所述至少一个第二词元，获取至少一个第二权重值。

具体地，根据获取到的所述至少一个第二词元，计算每个第二词元的权重值，其中，一个词元对应一个权重值，第二权重值越大，表示第二词元在所述第二中文医疗文本中出现的频率越高。

步骤S500：基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量。

具体地，通过将所述至少一个第一词元中的每个第一词元对应的第一权重值按照第一词元在所述训练词典中的位置依次排列，若所述训练词典中的词元在所述至少一个第一词元中没有出现，则在该词元对应的位置设置为零，从而获取用于表征所述第一中文医疗文本的第一特征向量。

步骤S600：基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量x。

具体地，通过将所述至少一个第二词元中的每个第二词元对应的第二权重值按照第二词元在所述训练词典中的位置依次排列，若所述训练词典中的词元在所述至少一个第二词元中没有出现，则在该词元对应的位置设置为零，从而获取用于表征所述第二中文医疗文本的第二特征向量y。

步骤S700：基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

具体地，首先对第一中文医疗文本和第二中文医疗文本分别进行分词处理获取至少一个第一词元和至少一个第二词元，接着计算每个第一词元的第一权重值和每个第二词元的第二权重值，然后基于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值获取第一特征向量，基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取第二特征向量，最后通过如下等式计算所述第一中文医疗文本和所述第二中文医疗文本余弦相似度度量值：

由此可知，余弦相似度度量值越大，所述第一中文医疗文本和所述第二中文医疗文本相似度越高，反之，余弦相似度度量值越小，所述第一中文医疗文本和所述第二中文医疗文本相似度越低，余弦相似度度量值为0时，所述第一中文医疗文本和所述第二中文医疗文本完全不相似。

作为一种实施方式，所述对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元，包括：

基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理，获取至少一种第一切分组合。

具体地，Trie树是一种前缀树，是一种哈希树的变种，用于统计和排序大量的字符串。Trie树的优点在于最大限度减少无谓的字符串比较，查询效率比哈希表高，利用字符串的公共前缀来降低查询时间的开销以达到提高查询速度的效果。Trie树的查询和插入的复杂度都为，k为字符串的长度。 Trie树的特性包含以下几点：

1.除了根结点不包含字符外，其他所有节点都包含字符。

2.从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。

3.每个节点的所有子节点包含的字符串不相同。

根据训练词典找出一个字符串中所有可能生成的词，如果待切分的字符串为str＝{c₁,c₂,…,c_m}，有m个字符，考虑每个字符左边和右边的位置，则有m+1个节点对应，节点的编号从0到m，把候选词看成边，可以根据训练词典生成一个切分词图。切分词图是一个有向无环图，一个切分就是一条从节点0到节点m的路径。例如：“快乐地绽放”进行切分，会存在“快乐/地/绽放”、“快乐地/绽放”两种可能切分组合。

基于所述至少一种第一切分组合和概率最大化原则，获取至少一个第一词元。

具体地，由于一个字符串存在至少一种切分组合，因此，需要从所述至少一种第一切分组合中找出出现概率最大的一种第一切分组合。

若第一切分组合中的词元均存在于训练词典中，则采用动态规划查找最大概率路径，找出出现概率最大的一种切分组合，具体地，对于一个待切分的字符串str＝{c₁,c₂,…,c_m}，其对应的任意一种切分组合可以表示为 seg(str)＝{w₁,w₂,…,w_n}，其中，n≤m，w_i表示第i个词元，基于概率最大化原则获取目标切分组合，即：

其中，G表示可能出现的切分组合，p(·)表示概率。

根据贝叶斯公式，将上式转换为：

其中，p(str)和p(seg|str)都是常数，因此，上式可以等价为：

假设每个词元与上下文无关，因此，通过计算p(seg)可以找到出现概率最大的一种切分组合，通过如下等式计算p(seg)，即：

为了防止连续相乘时计算的下溢，因此把连续相乘转化为对数的连续相加，即：

因此，上述求解问题转换为最短路径求解的问题，因此，则采用动态规划查找最大概率路径，找出出现概率最大的一种目标切分组合，继而获得第一词元。

若第一切分组合中的词元不存在于训练词典中，则采用基于汉字成词能力的HMM模型，找出出现概率最大的一种切分组合，具体地，对于字符串str＝{c₁,c₂,…,c_m}，将字符串str作为HMM模型中的观测序列O，而状态序列I由四元组{B,E,M,S}中的元素构成，其中，B表示开始位置，E 表示结束位置，M表示中间位置，S表示单独构成词，例如“病人的情况良好”，状态序列可以写成{B/E/S/B/M/M/E}。

在已知观测序列O的条件下，利用Baum-Welch算法求解模型λ＝(A₁,B₁,π)中的参数，即通过使条件概率P(O|λ)最大化，继而获取到参数 A₁，B₁，π的估计值，其中，A₁表示状态转移概率矩阵，B₁表示观测概率矩阵，π表示初始状态转移概率向量。接着在已知λ＝(A₁,B₁,π)和观测序列O的条件下，利用Viterbi算法求解使得条件概率P(I,O|λ)最大的状态序列I，在求解到状态序列之后，基于B表示开始位置，E表示结束位置，M表示中间位置，S表示单独构成词，对待切字符串进行重新切分组合，得到目标切分组合，继而获得第一词元。

所述对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元包括：

基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理，获取至少一种第二切分组合。

基于所述至少一种第二切分组合和所述概率最大化原则，获取至少一个第二词元。

其中，对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元的处理方式和对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元的处理方式相同，因此不在这里赘述。

作为一种实施方式，所述基于所述至少一个第一词元，获取至少一个第一权重值，包括：

基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，共至少一个第一TF值。

具体地，TF(Term Frequency)表示词频，即表示词元在文档中出现的概率，基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，其中，第一TF值通过第一词元在第一中文医疗文本中的出现的次数除以第一中文医疗文本中总的词元数求得。

基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一IDF值，共至少一个第一IDF值。

具体地，IDF(Inverse Document Frequency)表示逆文档概率，即表示词元在文档中的分布情况，基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，其中，第一IDF值通过对总的文档数目除以出现第一词元的文档数目所得的结果求对数log(·)求得。

基于所述至少一个第一TF值和所述至少一个第一IDF值，获取至少一个第一权重值。

具体地，通过将所述至少一个第一词元中每个第一词元对应的第一TF 值与第一IDF值相乘，继而获得至少一个第一权重值。

所述基于所述至少一个第二词元，获取至少一个第二权重值包括：

基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二TF值，共至少一个第二TF值。

基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二IDF值，共至少一个第二IDF值。

基于所述至少一个第二TF值和所述至少一个第二IDF值，获取至少一个第二权重值。

其中，基于所述至少一个第二词元，获取至少一个第二权重值的方式与基于所述至少一个第一词元，获取至少一个第一权重值的方式一样，因此，因此不在这里赘述。

作为一种实施方式，所述基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量，包括：

基于训练词典的词元排列顺序，生成第一基础特征向量。

具体地，将训练词典中的词元依次排列成一行或者一列，其中，在本实施中，所述第一基础特征向量为一行向量，在其他实施例中，所述第一基础特征向量为一列向量，第一基础特征向量中元素的个数与所述训练词典的词元总数一样，所述第一基础特征向量中的元素的值全部相同。

基于所述训练词典，获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置。

具体地，将所述至少一个第一词元中的每个第一词元与所述训练词典中词元进行匹配，在匹配成功时，获取该第一词元在所述基础特征向量中的对应位置。

将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值，所述第一基础特征向量的其他元素值设置为零，获取用于表征所述第一中文医疗文本的第一特征向量。

具体地，在确定所述至少一个第一词元中的每个第一词元在所述基础特征向量中的对应位置时，将所述至少一个第一词元中的每个第一词元的第一权重值写入所述基础特征向量的对应位置，所述第一基础特征向量的其他元素值设置为零，获取用于表征所述第一中文医疗文本的第一特征向量x。可以理解的是，在所述训练词典中的词元没有在所述至少一个第一词元中找到时，所述第一基础特征向量的对应位置的元素值设置为零。

所述基于训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量，包括：

基于所述训练词典的词元排列顺序，生成第二基础特征向量。

基于所述训练词典，获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置。

将每个对应位置的元素值设置为与每个第二词元一一对应的第二权重值，所述第二基础特征向量的其他元素值设置为零，获取用于表征所述第二中文医疗文本的第二特征向量。

其中，所述基于训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量的处理方式与所述基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量的处理方式相同，因此不在这里赘述。

为实现上述中文医疗文本查重方法，本发明实施例提供一种中文医疗文本查重装置200，请参照图3，图3为本发明实施例提供的一种中文医疗文本查重装置200的单元示意图，所述中文医疗文本查重装置200包括：第一分词处理单元210，第二分词处理单元220，第一权重获取单元230，第二权重获取单元240，第一特征向量获取单元250，第二特征向量获取单元260，相似度度量获取单元270。

第一分词处理单元210，用于对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元。

第二分词处理单元220，用于对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元。

第一权重获取单元230，用于基于所述至少一个第一词元，获取至少一个第一权重值。

第二权重获取单元240，用于基于所述至少一个第二词元，获取至少一个第二权重值。

第一特征向量获取单元250，用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量。

第二特征向量获取单元260，用于基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量。

相似度度量值获取单元270，用于基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

作为一种实施方式所述第一分词处理单元210包括：

第一切分单元，用于基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理，获取至少一种第一切分组合。

第一词元获取单元，用于基于所述至少一种第一切分组合和概率最大化原则，获取至少一个第一词元。

所述第二分词处理单元220包括：

第二切分单元，用于基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理，获取至少一种第二切分组合。

第二词元获取单元，用于基于所述至少一种第二切分组合和所述概率最大化原则，获取至少一个第二词元。

作为一种实施方式，所述第一权重获取单元230包括：

第一TF值获取单元，用于基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，共至少一个第一TF值。

第一IDF值获取单元，用于基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一IDF值，共至少一个第一IDF值；

第一获取单元，用于基于所述至少一个第一TF值和所述至少一个第一 IDF值，获取至少一个第一权重值。

所述第二权重获取单元240包括：

第二TF值获取单元，用于基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二TF值，共至少一个第二TF值。

第二IDF值获取单元，用于基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二IDF值，共至少一个第二IDF值。

第二获取单元，用于基于所述至少一个第二TF值和所述至少一个第二 IDF值，获取至少一个第二权重值。

作为一种实施方式，所述第一特征向量获取单元250包括：

第一基础特征向量生成单元，用于基于训练词典的词元排列顺序，生成第一基础特征向量。

第一位置获取单元，用于基于所述训练词典，获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置。

第一设置单元，用于将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值，所述第一基础特征向量的其他元素值设置为零，获取用于表征所述第一中文医疗文本的第一特征向量。

所述第二特征向量获取单元260包括：

第二基础特征向量生成单元，用于基于所述训练词典的词元排列顺序，生成第二基础特征向量。

第二位置获取单元，用于基于所述训练词典，获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置。

第二设置单元，用于将每个对应位置的元素值设置为与每个第二词元一一对应的第二权重值，所述第二基础特征向量的其他元素值设置为零，获取用于表征所述第二中文医疗文本的第二特征向量。

请参照图4，图4为本发明实施例还提供一种实现中文医疗文本查重装置200的结构示意图，其采用通用计算机系统结构，包括总线、处理器103、存储器101和通信接口403，执行本发明方案的程序代码保存在存储器101 中，并由处理器103来控制执行。

总线可包括一通路，在计算机各个部件之间传送信息。

存储器101可以存储各种软件程序以及单元，如本申请实施例提供的中文医疗文本查重方法及装置对应的程序指令/单元。处理器103通过运行存储在存储器101中的软件程序以及单元，从而执行各种功能应用以及数据处理，即实现本申请实施例中的中文医疗文本查重方法。存储器101可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、微处理器、特定应用集成电路 (Application-Specific IntegratedCircuit，ASIC)、或一个或多个用于控制本发明方案程序执行的集成电路。计算机系统中包括的一个或多个存储器101，可以是只读存储器(Read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM) 或者可存储信息和指令的其他类型的动态存储设备，也可以是磁盘存储器。这些存储器101通过总线与处理器103相连接。

通信接口403，可以使用任何收发器一类的装置，以便与其他设备或通信网络，如以太网、无线接入网(RAN)、无线局域网(WLAN)等。

本发明实施例还提供了一种计算机可读取存储介质，用于存储上述图3 或图4所述的实现中文医疗文本查重装置200所用的计算机软件指令，其包括用于执行上述方法实施例所涉及的程序。通过执行存储程序，可以实现中文医疗文本查重。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的中文医疗文本查重装置的具体工作过程，可以参考前述中文医疗文本查重方法中的对应过程，在此不再过多赘述。

综上所述，本发明实施例提供了中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质，所述方法包括：对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；基于所述至少一个第一词元，获取至少一个第一权重值；基于所述至少一个第二词元，获取至少一个第二权重值；基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。通过本发明能够实现电子病历查重，继而减少因电子病历功能泛用带来的潜在风险，保障患者安全。

在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种中文医疗文本查重方法，其特征在于，所述方法包括：

对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；

对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；

基于所述至少一个第一词元，获取至少一个第一权重值；

基于所述至少一个第二词元，获取至少一个第二权重值；

基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；

基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；

基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

2.根据权利要求1所述的中文医疗文本查重方法，其特征在于，所述对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元，包括：

基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理，获取至少一种第一切分组合；

基于所述至少一种第一切分组合和概率最大化原则，获取至少一个第一词元；

所述对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元，包括：

基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理，获取至少一种第二切分组合；

3.根据权利要求1所述的中文医疗文本查重方法，其特征在于，所述基于所述至少一个第一词元，获取至少一个第一权重值，包括：

基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，共至少一个第一TF值；

基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一IDF值，共至少一个第一IDF值；

基于所述至少一个第一TF值和所述至少一个第一IDF值，获取至少一个第一权重值；

所述基于所述至少一个第二词元，获取至少一个第二权重值，包括：

基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二TF值，共至少一个第二TF值；

基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二IDF值，共至少一个第二IDF值；

4.根据权利要求1所述的中文医疗文本查重方法，其特征在于，所述基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量，包括：

基于训练词典的词元排列顺序，生成第一基础特征向量；

基于所述训练词典，获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置；

将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值，所述第一基础特征向量的其他元素值设置为零，获取用于表征所述第一中文医疗文本的第一特征向量；

基于所述训练词典的词元排列顺序，生成第二基础特征向量；

基于所述训练词典，获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置；

5.一种中文医疗文本查重装置，其特征在于，所述装置包括：

第一分词处理单元，用于对获取到的第一中文医疗文本进行分词处理，获取至少一个第一词元；

第二分词处理单元，用于对获取到的第二中文医疗文本进行分词处理，获取至少一个第二词元；

第一权重获取单元，用于基于所述至少一个第一词元，获取至少一个第一权重值；

第二权重获取单元，用于基于所述至少一个第二词元，获取至少一个第二权重值；

第一特征向量获取单元，用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值，获取用于表征所述第一中文医疗文本的第一特征向量；

第二特征向量获取单元，用于基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值，获取用于表征所述第二中文医疗文本的第二特征向量；

相似度度量值获取单元，用于基于所述第一特征向量和所述第二特征向量，获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

6.根据权利要求5所述的中文医疗文本查重装置，其特征在于，所述第一分词处理单元包括：

第一切分单元，用于基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理，获取至少一种第一切分组合；

第一词元获取单元，用于基于所述至少一种第一切分组合和概率最大化原则，获取至少一个第一词元；

所述第二分词处理单元包括：

第二切分单元，用于基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理，获取至少一种第二切分组合；

7.根据权利要求5所述的中文医疗文本查重装置，其特征在于，所述第一权重获取单元包括：

第一TF值获取单元，用于基于所述至少一个第一词元，获取所述至少一个第一词元中每个第一词元的第一TF值，共至少一个第一TF值；

第一获取单元，用于基于所述至少一个第一TF值和所述至少一个第一IDF值，获取至少一个第一权重值；

所述第二权重获取单元包括：

第二TF值获取单元，用于基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二TF值，共至少一个第二TF值；

第二IDF值获取单元，用于基于所述至少一个第二词元，获取所述至少一个第二词元中每个第二词元的第二IDF值，共至少一个第二IDF值；

第二获取单元，用于基于所述至少一个第二TF值和所述至少一个第二IDF值，获取至少一个第二权重值。

8.根据权利要求5所述的中文医疗文本查重装置，其特征在于，所述第一特征向量获取单元包括：

第一基础特征向量生成单元，用于基于训练词典的词元排列顺序，生成第一基础特征向量；

第一位置获取单元，用于基于所述训练词典，获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置；

第一设置单元，用于将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值，所述第一基础特征向量的其他元素值设置为零，获取用于表征所述第一中文医疗文本的第一特征向量；

所述第二特征向量获取单元包括：

第二基础特征向量生成单元，用于基于所述训练词典的词元排列顺序，生成第二基础特征向量；

第二位置获取单元，用于基于所述训练词典，获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时，所述电子设备执行以下操作：

基于所述至少一个第一词元，获取至少一个第一权重值；

基于所述至少一个第二词元，获取至少一个第二权重值；

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有程序指令，所述程序指令被读取并运行时，执行权利要求1-4中任一权项所述方法。