CN114154514A

CN114154514A - 一种中医证型识别方法及系统

Info

Publication number: CN114154514A
Application number: CN202210116011.0A
Authority: CN
Inventors: 单梁; 孟志国; 李玉强; 丁文静
Original assignee: Beijing Sanzi Health Technology Co ltd
Current assignee: Tiandao Zixin Health Technology (Guangdong) Co.,Ltd.
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-03-08
Anticipated expiration: 2042-02-07
Also published as: CN114154514B

Abstract

本发明涉及一种中医证型识别方法及系统，所述方法包括：通过预先建立的证型分词模型对待识别文本进行处理得到待识别证型缩写，在组成模型表中查找到对应的初步证型名称，根据初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V，在预先建立的证型向量矩阵中遍历每一条向量记录，当找到与证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将证型向量R对应的证型名称作为证型向量V的最终的目标证型名称，该方法能够对中医证型进行有效切分，满足了中医药行业的专业需求。

Description

一种中医证型识别方法及系统

技术领域

本发明属于文本识别技术领域，尤其涉及一种中医证型识别方法及系统。

背景技术

随着中医病历、中医古籍及现代中医文献等相关数据内容的电子化，中医技术的研究得到进一步发展。要实现在中医电子化数据的基础上进行深入的数据挖掘及分析，医疗文本的结构化就显得尤为重要，其中对于中医文本的识别，是有效研究和结构化医疗文本、更精准的获取证型和把握证型对应治法的有效方法。

常见的文本识别方法包括最大熵模型、条件随机场模型、注意力机制模型、深度神经网络等。由于不同专业领域对文本识别的要求各不相同，所以通用的问文本识别方法在特殊行业的应用效果不尽如人意。且由于语言的演变及各地方言的因素，目前在中医古籍、现代中医文献及病历中对于证型的描述和记录格式差别极大，对于文本中的中医证型需要进行医学专业的语言构成分析，单纯用目前已存的文本识别方法对中医证型进行切分并不能满足中医药行业的专业需求。

发明内容

本发明意在提供一种中医证型识别方法及系统，以解决目前已存的文本识别方法对中医证型进行切分不能满足中医药行业的专业需求的问题，本发明要解决的技术问题通过以下技术方案来实现：

一方面，本发明提供了一种中医证型识别方法，包括：

获取待识别文本；

利用预先建立的证型分词模型对所述待识别文本进行分词处理得到匹配的多个标准词和与所述多个标准词对应的多个类别语义符，并根据多个所述类别语义符按照所述待识别文本中词的顺序组合得到待识别证型缩写；

如果在组成模型表中查找到所述待识别证型缩写，则将多个所述标准词按照所述待识别文本中词的顺序组合得到初步证型名称；

根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V；

如果在预先建立的证型向量矩阵中遍历到与所述证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将所述证型向量R对应的证型名称作为所述证型向量V的目标证型名称。

优选地，所述获取待识别文本的步骤之前还包括：

对已知中医证型进行元素切分得到多个证型元素；

对每个所述证型元素进行分类标注；

根据所述证型元素的分类标注信息对多个所述证型元素进行分类整理并建立多个类别元素表，所述类别元素表中包括每个证型元素的标准词和对应的同义词；

整合多个所述类别元素表得到所述元素向量矩阵，其中，所述元素向量矩阵中用1标识证型元素所处的位置。

优选地，所述类别元素表包括病位元素表、物质基础元素表、物质基础状态元素表、影响因素元素表和影响方式元素表。

优选地，所述根据所述证型元素的分类标注信息对多个所述证型元素进行分类整理并建立多个类别元素表的步骤之后还包括：

根据所述证型元素的分类标注信息为每个所述证型元素分配相应的类别语义符；

基于多个所述类别元素表和每个所述证型元素分配的类别语义符建立所述证型分词模型。

优选地，所述根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V的步骤包括：

在所述元素向量矩阵中查找所述初步证型名称所包含的每个证型元素对应的向量；

将查找到的每个所述证型元素对应的向量相加得到所述证型向量V。

优选地，所述如果在预先建立的证型向量矩阵中遍历到与所述证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将所述证型向量R对应的证型名称作为所述证型向量V的目标证型名称的步骤之后还包括：

将所述待识别文本更新至所述证型向量R的原始文本列表中，并将所述目标证型名称对应的向量更新为所述证型向量R和所述证型向量V相加的和。

优选地，所述根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V的步骤之后还包括：

如果在预先建立的证型向量矩阵中遍历到的所述证型向量R与所述证型向量V的余弦相似度不满足预设相似度阈值，则计算所述证型向量R的单位向量与所述证型向量V之差得到差异向量D；

如果所述差异向量D的坐标中不存在负值，则将所述证型向量R对应的证型名称作为所述证型向量V的相似证型名称。

另一方面，本发明还提供了一种中医证型识别系统，包括：

文本获取模块，被配置为获取待识别文本；

证型分词模型模块，被配置为利用预先建立的证型分词模型对所述待识别文本进行分词处理得到匹配的多个标准词和与所述多个标准词对应的多个类别语义符，并根据多个所述类别语义符按照所述待识别文本中词的顺序组合输出待识别证型缩写；

组成模型模块，被配置为如果在组成模型表中查找到所述待识别证型缩写，则将多个所述标准词按照所述待识别文本中词的顺序组合得到初步证型名称；

证型向量获取模块，被配置为根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V；

以及，证型识别模块，被配置为如果在预先建立的证型向量矩阵中遍历到与所述证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将所述证型向量R对应的证型名称作为所述证型向量V的目标证型名称。

再一方面，本发明还提供了一种电子设备，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述所述的一种中医证型识别方法。

又一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的一种中医证型识别方法。

与现有技术相比，本发明的中医证型识别方法通过预先建立的证型分词模型对待识别文本进行处理得到待识别证型缩写，之后在组成模型表中查找到对应的初步证型名称，根据初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V，最后在预先建立的证型向量矩阵中遍历每一条向量记录，当找到与证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将证型向量R对应的证型名称作为证型向量V的最终的目标证型名称，该方法能够对中医证型进行有效切分，满足了中医药行业的专业需求。

附图说明

图1为本发明的一种中医证型识别方法的一些实施例的流程示意图；

图2为本发明的一种中医证型识别方法的步骤100的一些实施例的流程示意图；

图3为本发明的一种中医证型识别方法的步骤500的一些实施例的流程示意图；

图4为本发明的一种中医证型识别方法的另一些实施例的流程示意图；

图5为本发明实施例的一种中医证型识别方法的具体实现过程图；

图6为本发明一种中医证型识别系统的一些实施例的结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

一方面，参见图1所示，本发明实施例提供了一种中医证型识别方法，包括：

步骤200：获取待识别文本；

本步骤中可直接从已有的中医电子化数据中获取待识别文本或者直接人为输入的待识别文本，这里待识别文本为字符串形式，若是待识别文本较长，可以先将待识别文本分段后再进行后续识别。

步骤300：利用预先建立的证型分词模型对待识别文本进行分词处理得到匹配的多个标准词和与多个标准词对应的多个类别语义符，并根据多个类别语义符按照待识别文本中词的顺序组合得到待识别证型缩写；

本步骤中首先利用证型分词模型将文本字符串进行切分，之后匹配提取的词，最后确定标准词和对应的类别语义符。

步骤400：如果在组成模型表中查找到，则将多个标准词按照待识别文本中词的顺序组合得到初步证型名称；

本步骤中证型的组成模型表是根据中医基础理论构建的，每个理论模型具有相应的模型缩写。通过在建立的组成模型表中查询待识别证型缩写是否存在，如果存在则得到初步证型名称，如果不存在，则认为该文本字符串为不存在中医证型的文本。

步骤500：根据初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V；

步骤600：如果在预先建立的证型向量矩阵中遍历到与证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将证型向量R对应的证型名称作为证型向量V的目标证型名称。

本步骤中预先建立的证型向量矩阵相当于一个存储器，用于保存证型、证型原始文本及证型向量。本实施例中可预先对《中医基础理论学》第五版、《中医诊断学》第五版、《中医内科学》第五版、《中医大辞典》、《中医证候学》、《中医证候诊断标准》、ICD11-国际疾病诊断分类-中医部分、中医临床诊疗术语第2部分：证候（2020修订版）、GB/T 16751.2-1997 中医临床诊疗术语证候部分等中医文献进行证型识别，获得相应的证型向量以构建证型向量矩阵。

本发明实施例的中医证型识别方法通过预先建立的证型分词模型对待识别文本进行处理得到待识别证型缩写，之后在组成模型表中查找到对应的初步证型名称，根据初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V，最后在预先建立的证型向量矩阵中遍历每一条向量记录，当找到与证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将证型向量R对应的证型名称作为证型向量V的最终的目标证型名称。本发明实施例的中医证型识别方法能够对中医证型进行有效切分，满足了中医药行业的专业需求。

在一些实施例中，参见图2所示，本发明的中医证型识别方法中步骤200之前还包括：

步骤101：对已知中医证型进行元素切分得到多个证型元素；

步骤102：对每个证型元素进行分类标注；

步骤103：根据证型元素的分类标注信息对多个证型元素进行分类整理并建立多个类别元素表，其中，类别元素表中包括每个证型元素的标准词和对应的同义词；

步骤104：整合多个类别元素表得到元素向量矩阵，其中，元素向量矩阵中用1标识证型元素所处的位置。

可选地，本发明实施例的中医证型识别方法中类别元素表包括病位元素表、物质基础元素表、物质基础状态元素表、影响因素元素表和影响方式元素表。

具体的，本实施例中先构建类别元素表，之后再构建元素向量矩阵。构建的类别元素表具体为：

1）病位元素表

病位是指生理活动出现异常的功能器官，包括中医理论概念中的器官以及现代医学概念中的器官。

构建病位元素表，包含病位及其同义词。例如：

表一

2）物质基础元素表

物质基础元素表包括气、血、精、津、阴、阳等构成中医学中人体机能运行的物质基础及其同义词。例如：

表二

3）物质基础状态元素表

物质基础状态是描述物质基础当前所处的生理、病理状态，比如“气虚”，“气”是物质基础，“虚”是当前状态。

物质基础状态元素表构建了所有物质基础可能存在的状态及其同义词。例如：

表三

4）影响因素元素表

影响因素是指所有能够对人体正常生理活动产生影响、以及能够引起人体器官发生病理反应的内部或外部因素。例如“寒湿困脾”，其中“寒”和“湿”都属于影响因素。

影响因素元素表，包含所有可能引起并位病变的内部、外部因素及其同义词。例如：

表四

5）影响方式元素表

影响方式是指影响因素影响生理活动、或引发病理反应的方式，比如“困”、“犯”、“伤”等。例如，“寒湿困脾”中的“困”、“风热犯肺”中的“犯”，均属于影响方式。

影响方式元素表，包含所有可能影响生理活动或引发病理反应的方式及其同义词。例如：

表五

6）构建元素向量矩阵

构建全部元素的向量表，每条元素的向量，包含全部五类元素的位置及其模，标识该元素位置的为1，其他全部为0。例如：

表六

在一些实施例中，参见图2所示，本发明的中医证型识别方法中步骤102之后还包括：

步骤105：根据证型元素的分类标注信息为每个证型元素分配相应的类别语义符；

步骤106：基于多个类别元素表和每个证型元素分配的类别语义符建立证型分词模型。

本实施例中建立证型分词模型为首先建立病位-物质基础、影响因素-物质基础状态映射表，为病位、物质基础、物质基础状态、影响因素、影响方式5种类别建立语义符，分别用5个英文字母表示：病位(o)、物质基础(p)、物质基础状态(s)、影响因素(f)、影响方式(v)。之后利用所有类别元素表中的标准名与同义词制作分词表即：| 词文本 | 标准名 |类别 | 语义符 |，例如：

表七

之后根据分词表建立组成模型表，例如：

表八

在一些实施例中，参见图3所示，本发明的中医证型识别方法中步骤500包括：

步骤501：在元素向量矩阵中查找初步证型名称所包含的每个证型元素对应的向量；

步骤502：将查找到的每个证型元素对应的向量相加得到证型向量V。

本实施例中逐一在元素向量矩阵中查找每个元素的向量，将其相加，获得该证型的向量，例如：

肝：[0,0,1,0,0,0,0,…]

气：[0,0,0,1,0,0,0,…]

滞：[0,0,0,0,1,0,0,…]

肝气滞：[0,0,1,1,1,0,0,…]。

在一些实施例中，参见图4所示，本发明的中医证型识别方法中步骤600之后还包括：

步骤700：将待识别文本更新至证型向量R的原始文本列表中，并将目标证型名称对应的向量更新为证型向量R和证型向量V相加的和。

在一些实施例中，参见图4所示，本发明的中医证型识别方法中步骤500之后还包括：

步骤801：如果在预先建立的证型向量矩阵中遍历到的证型向量R与证型向量V的余弦相似度不满足预设相似度阈值，则计算证型向量R的单位向量与证型向量V之差得到差异向量D；

步骤802：如果差异向量D的坐标中不存在负值，则将证型向量R对应的证型名称作为证型向量V的相似证型名称。

具体的，参见图5所示，对目标文本进行证型识别的具体步骤如下：

1、假设目标文本即待识别文本是Y，首先获得证型向量V；

2、在构建的证型向量矩阵中，遍历每一条记录，如果存在证型向量矩阵中记录的证型向量R与证型向量V的余弦相似度为1，则返回证型向量R的证型名称；

否则，将证型向量矩阵中记录的每一条证型向量R的单位向量与证型向量V相减，获得差异向量D；

判断差异向量D的坐标中是否存在负值，如果存在负值，则记录的证型向量R不符合要求；如果不存在负值，则在相似证型矩阵T中记录证型向量R的证型名称及R的向量的模，例如：

| 证型名称 | 模 |

| 肝气郁 | 2342 |

对相似证型矩阵T中的模进行归一化操作（M - Mmin）/（Mmax - Mmin），获得概率p，根据p倒序排列，最后证型名称与对应的p输出，输出的证型名称即为该文本可能涉及的证型，输出的p即为证型的匹配概率。

以下举一个具体的实施例说明上述识别方法：

A:原始文本：“…脾气和，则可以埤诸脏，灌四旁，若虚则生寒，…” ，获得以上文本中所含证型“脾气虚”，模型缩写为ops，证型向量为：[0,1,0,0,0,1,0,0,1,…]

从证型向量矩阵中进行匹配，如下所示：

表九

将获取的“脾气虚”的证型向量与证型向量矩阵中的每一条记录的向量进行匹配，分别计算出向量差和余弦相似度，并按照余弦相似度降序排列，计算结果如下：

表十

由计算结果可以看出1、3、4记录向量差中有负值，不满足计算要求，记录2完全符合，则可以确定该文本中描述了一个证型：“脾气虚”。

另一方面，参见图6所示，本发明实施例还提供了一种中医证型识别系统1，包括：

文本获取模块10，被配置为获取待识别文本；

证型分词模型模块20，被配置为利用预先建立的证型分词模型对待识别文本进行分词处理得到匹配的多个标准词和与多个标准词对应的多个类别语义符，并根据多个类别语义符按照待识别文本中词的顺序组合输出待识别证型缩写；

组成模型模块30，被配置为如果在组成模型表中查找到待识别证型缩写，则将多个标准词按照待识别文本中词的顺序组合得到初步证型名称；

证型向量获取模块40，被配置为根据初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V；

以及，证型识别模块50，被配置为如果在预先建立的证型向量矩阵中遍历到与证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将证型向量R对应的证型名称作为证型向量V的目标证型名称。

上述一种中医证型识别系统各模块的具体细节已经在对应的一种中医证型识别方法中进行了详细的描述，因此此处不再赘述。

再一方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例所述的一种中医证型识别方法。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机可读指令时，能够执行上述实施例所述的一种中医证型识别方法。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例所述的一种中医证型识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，ROM)、随机存取器(randomaccessmemory，RAM)、磁盘或光盘等。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请所述的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中医证型识别方法，其特征在于，包括：

获取待识别文本；

2.根据权利要求1所述的一种中医证型识别方法，其特征在于，所述获取待识别文本的步骤之前还包括：

对已知中医证型进行元素切分得到多个证型元素；

对每个所述证型元素进行分类标注；

3.根据权利要求2所述的一种中医证型识别方法，其特征在于，所述类别元素表包括病位元素表、物质基础元素表、物质基础状态元素表、影响因素元素表和影响方式元素表。

4.根据权利要求2所述的一种中医证型识别方法，其特征在于，所述根据所述证型元素的分类标注信息对多个所述证型元素进行分类整理并建立多个类别元素表的步骤之后还包括：

5.根据权利要求4所述的一种中医证型识别方法，其特征在于，所述根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V的步骤包括：

6.根据权利要求5所述的一种中医证型识别方法，其特征在于，所述如果在预先建立的证型向量矩阵中遍历到与所述证型向量V的余弦相似度满足预设相似度阈值的证型向量R，则将所述证型向量R对应的证型名称作为所述证型向量V的目标证型名称的步骤之后还包括：

7.根据权利要求6所述的一种中医证型识别方法，其特征在于，所述根据所述初步证型名称从预先建立的元素向量矩阵中获取相应的证型向量V的步骤之后还包括：

8.一种中医证型识别系统，其特征在于，包括：

文本获取模块，被配置为获取待识别文本；

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的一种中医证型识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种中医证型识别方法。