CN113191141A

CN113191141A - 问诊正则表达式生成方法、装置、设备及存储介质

Info

Publication number: CN113191141A
Application number: CN202110482326.2A
Authority: CN
Inventors: 周尚思
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-30

Abstract

本发明涉及数据处理技术领域，公开了一种问诊正则表达式生成方法、装置、设备及存储介质。通过从采集到的标注数据中提取出病症特征，基于病症特征构建出共现矩阵，从共现矩阵中选择出组合频率较高的特征组合作为与诊断结果对应的特征组合，然后将选择出来的特征组合进行向量化处理，最后基于向量化后的特征组合生成正则表达式，通过这样的方式实现正则表达式的自动生成，其利用的疾病知识图谱模型对标注数据中进行病症特征的提取，避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象。此外，本发明还涉及区块链技术，标注数据可存储于区块链中。

Description

问诊正则表达式生成方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种问诊正则表达式生成方法、装置、设备及存储介质。

背景技术

随着当代信息时代的高速发展，每天有大量的信息数据产生和需要处理。尤其是在智能医疗领域预检、分诊、诊断过程中，由于模型分类的不足以及难以解决的疑难病症，需要更严谨准确的识别，而在一些医疗场景中通过公采用了正则表达式来对问诊者的问诊信息进行识别以实现对问诊者症状的诊断，但是目前所使用的正则表达式主要是通过人工撰写的方式来生成，传统的人工撰写正则表达式的方式，需要按照“查看语料→判断语料中关键词→编写词库→撰写正则式”的步骤，流程繁多，且人力查看语料的效率较低。

另外在基于规则的语义识别方面，需要人工撰写大量的语料和添加词库，耗费人力且低效，完全依靠人工撰写正则表达式无法及时、准确地处理每天新增的信息数据，并且人工撰写正则表达式对工作人员的要求较高。

发明内容

本发明的主要目的在于解决现有的正则表达式生成方式生成正则表达式的精准度较低的技术问题。

本发明第一方面提供了一种问诊正则表达式生成方法，所述问诊正则表达式生成方法包括：获取多个问诊数据和对应的诊断结果，并基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率；筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

可选的，在本发明第一方面的第一种实现方式中，所述基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集包括：根据所述诊断结果，从预设的诊断标签表中查询出与所述诊断结果对应的标签；确定与所述诊断结果对应的问诊数据，利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记，得到标记数据；根据所述标签对所有所述标记数据进行分类，生成多个标记数据子集，其中所述分类为将所有所述标记数据中标签相同的进行合并，得到一个标记数据子集；将多个标记数据子集生成表达式样本集。

可选的，在本发明第一方面的第二种实现方式中，所述将多个标记数据子集生成表达式样本集包括：根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容；利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除，直到所有标记数据子集完成去除非主体内容后，生成表达式样本集。

可选的，在本发明第一方面的第三种实现方式中，所述根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容包括：根据中文语法规则对每个标记数据子集中的标记数据进行分词处理，得到所述标记数据子集的字词及对应的词性；根据语法规则和所述标记数据子集中的字词和对应的词性，对所述标记数据子集中的标记数据进行句式进行分析，得到所述标记数据子集的句式结构；根据所述句式结构，提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。

可选的，在本发明第一方面的第四种实现方式中，所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络，所述利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集包括：利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别，并基于识别的结果筛选出无明显语义的字词进行标注，得到标注主体内容；利用分析技术将所述标注主体内容中无明显语义的字词进行删除，得到样本分词；通过所述病症识别网络对所述样本分词进行病症特征的识别和分割，得到所述标记数据子集的特征集。

可选的，在本发明第一方面的第五种实现方式中，所述根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率包括：根据各所述标记数据子集的特征集中的病症特征构建对应的矩阵表，其中，所述矩阵表包括矩阵表头和矩阵内容表，所述矩阵表头包括列表头和行表头，每个矩阵表中的列表头和行表头中均包含有对应标记数据子集的特征集中的所有病症特征；统计各标记数据子集中的所述列表头和行表头的病症特征组合在同一个标记数据中出现的次数，并添加到对应的矩阵内容表中，得到各标记数据子集的共现矩阵；将所述次数计算对应的病症特征组合的组合频率。

可选的，在本发明第一方面的第六种实现方式中，所述筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式包括：对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序，并从中选择排序靠前的N个病症特征组合作为所述共现矩阵对应的诊断结果的诊断特征组合，N为大于1的整数；将所述诊断特征组合中的每个病症特征进行向量化处理，得到特征向量；根据所述特征向量生成对应的正则表达式。

本发明第二方面提供了一种问诊正则表达式生成装置，所述问诊正则表达式生成装置包括：标注模块，用于获取多个问诊数据和对应的诊断结果，并基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；提取模块，用于利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；计算模块，用于根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率；生成模块，用于筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

可选的，在本发明第二方面的第一种实现方式中，所述标注模块包括：查询单元，用于根据所述诊断结果，从预设的诊断标签表中查询出与所述诊断结果对应的标签；标记单元，用于确定与所述诊断结果对应的问诊数据，利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记，得到标记数据；分类单元，用于根据所述标签对所有所述标记数据进行分类，生成多个标记数据子集，其中所述分类为将所有所述标记数据中标签相同的进行合并，得到一个标记数据子集；样本生成单元，用于将多个标记数据子集生成表达式样本集。

可选的，在本发明第二方面的第二种实现方式中，所述样本生成单元具体用于：根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容；利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除，直到所有标记数据子集完成去除非主体内容后，生成表达式样本集。

可选的，在本发明第二方面的第三种实现方式中，所述样本生成单元具体用于：根据中文语法规则对每个标记数据子集中的标记数据进行分词处理，得到所述标记数据子集的字词及对应的词性；根据语法规则和所述标记数据子集中的字词和对应的词性，对所述标记数据子集中的标记数据进行句式进行分析，得到所述标记数据子集的句式结构；根据所述句式结构，提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。

可选的，在本发明第二方面的第四种实现方式中，所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络，所述提取模块包括：识别单元，用于利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别，并基于识别的结果筛选出无明显语义的字词进行标注，得到标注主体内容；提取单元，用于利用分析技术将所述标注主体内容中无明显语义的字词进行删除，得到样本分词；分割单元，用于通过所述病症识别网络对所述样本分词进行病症特征的识别和分割，得到所述标记数据子集的特征集。

可选的，在本发明第二方面的第五种实现方式中，所述计算模块包括：构建单元，用于根据各所述标记数据子集的特征集中的病症特征构建对应的矩阵表，其中，所述矩阵表包括矩阵表头和矩阵内容表，所述矩阵表头包括列表头和行表头，每个矩阵表中的列表头和行表头中均包含有对应标记数据子集的特征集中的所有病症特征；统计单元，用于统计各标记数据子集中的所述列表头和行表头的病症特征组合在同一个标记数据中出现的次数，并添加到对应的矩阵内容表中，得到各标记数据子集的共现矩阵；计算单元，用于将所述次数计算对应的病症特征组合的组合频率。

可选的，在本发明第二方面的第六种实现方式中，所述生成模块包括：排序单元，用于对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序，并从中选择排序靠前的N个病症特征组合作为所述共现矩阵对应的诊断结果的诊断特征组合，N为大于1的整数；向量化单元，用于将所述诊断特征组合中的每个病症特征进行向量化处理，得到特征向量；表达式生成单元，用于根据所述特征向量生成对应的正则表达式。

本发明第三方面提供了一种问诊正则表达式生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述问诊正则表达式生成设备执行上述的问诊正则表达式生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的问诊正则表达式生成方法。

本发明的技术方案中，通过从采集到的标注数据中提取出病症特征，基于病症特征构建出共现矩阵，从共现矩阵中选择出组合频率较高的特征组合作为与诊断结果对应的特征组合，然后将选择出来的特征组合进行向量化处理，最后基于向量化后的特征组合生成正则表达式，通过这样的方式实现正则表达式的自动生成，其利用的疾病知识图谱模型对标注数据中进行病症特征的提取，避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象，同时利用矩阵和向量化的处理，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

附图说明

图1为本发明实施例中问诊正则表达式生成方法的第一个实施例示意图；

图2为本发明实施例中问诊正则表达式生成方法的第二个实施例示意图；

图3为本发明实施例中问诊正则表达式生成方法的第三个实施例示意图；

图4为本发明实施例中问诊正则表达式生成方法的第四个实施例示意图；

图5为本发明实施例中问诊正则表达式生成装置的一个实施例示意图；

图6为本发明实施例中问诊正则表达式生成装置的另一个实施例示意图；

图7为本发明实施例中问诊正则表达式生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种问诊正则表达式生成方法、装置、设备及存储介质，通过模型对问诊数据进行特征提取，从根本上规避了人为识别特征造成不准确风险，机器本来对时间就不敏感，并且数据越多，对于智能正则表达式系统生成的正则越完善，同时在生成正则表达式具体通过对问诊数据构建共现矩阵，基于共现矩阵进行特征向量化处理，从而生成正则表达式，通过这样的方式生成的表达式，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中问诊正则表达式生成方法的第一个实施例，该方法的实现步骤如下：

101、获取多个问诊数据和对应的诊断结果，并基于诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；

本实施例中，对于问诊数据和对应的诊断结果的获取，具体可以是在授权的基础上，从医疗平台中收集得到，如医院的分诊系统，在医院或者患者的授权下，根据接口调度指令请求分诊系统中的数据读取接口与当前的正则表达式的生成系统建立通信连接，基于该通信连接，根据预先握手协商的通信协议从分诊系统中的数据存储区中读取分诊后的问诊记录，通过数据提取技术对问诊记录中的问诊数据和诊断结果进行提取，优选的提取问诊数据时具体是提取问诊的语料数据，而诊断结果则从分诊记录中提取得到。

进一步的，在提取出语料数据和诊断结果后，通过数据打点记录方式对对应的问诊数据(即是语料数据)进行打点标记，得到标记数据，即是表达是生成样本集。

在实际应用中，所述问诊数据可以是规范的问诊单，也可以是用户的语音等音频文件，而对于是音频文件时，首选需要将获取到的音频文件通过语音识别技术转换为文本信息，然后对文本信息进行词语规范的调整处理，得到规范的书面文本，例如不同地域对于同一种物体的描述会存在不同，通过对词语的语义的识别，然后基于语义确定规范的词语表述后修改，得到规范的问诊数据。

102、利用预设的疾病知识图谱识别模型，对表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

该步骤中，疾病知识图谱识别模型是预先通过深度学习算法对已分诊的问诊语料或者是已确诊的诊断病历进行深度学习生成的模型，该模型按照诊断结果与病症特征之间的关系进行学习。

在实际应用中，利用该模型对表达式生成样本进行特征提取时，具体是先将诊断结果输入至疾病知识图谱识别模型中对模型的参数进行设置，然后基于设置后的模型对样本集中与所述诊断结果对应的样本进行特征的识别，并提取出形成单独的特征子集，在对样本集中与诊断结果对应的所有样本进行特征提取后，将所有特征子集进行合并，形成特征集。

在本实施例中，该步骤的具体还可以通过以下方式实现：

对表达式生成样本集中的样本进行分类，具体是根据样本中的标注进行分类，该标注与诊断结果对应，通过对标注的识别，将相同标注的所有样本归类一类，得到多个样本子集；然后利用模型对每个样本子集中的样本进行特征提取，在提取过程中，首先确定样本子集对应的诊断结果，根据诊断结果确定模型的配置参数，根据配置参数对所述疾病知识图谱识别模型进行参数的配置，在配置完成后，将样本子集中的每个样本依次输入至模型中，通过模型进行关键词的识别，提取出其中与诊断结果匹配的特征，然后输出特征子集，其中一个特征子集对应一个样本，在完成样本子集中的所有样本后，将特征子集进行合并特征多个特征集，将所有的特征集组成与该表达式生成样本集的特征大集合。

103、根据所有样本的特征集生成共现矩阵，并计算共现矩阵中各病症特征之间的组合频率；

该步骤中，在生成共现矩阵时，具体是一个诊断结果对应一个共现矩阵，而在共现矩阵中包含有表现为同一个结果的多种疾病特征组合，生成共现矩阵具体为：首先将样本子集中的每个样本中的疾病特征进行相互组合，得到组合子集；然后统计该样本子集中的相同疾病特征组合的数量，以将疾病特征组合进行归类统计，得到各疾病特征组合的频数，将频数和疾病特征组合中的疾病特征构建共现矩阵。例如：疾病特征组合包括月经、肚子疼两个疾病特征，然后以月经、肚子疼分别作为矩阵的行和列元素，以频数作为矩阵内容，从而构建出一个共现矩阵。

在共现矩阵的基础上，统计该共现矩阵中存在的疾病特征组合的总数，然后将各疾病特征组合的频数与总数相除，得到对应的疾病特征组合的组合频率。

104、筛选组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

该步骤中，对每个共现矩阵中的疾病特征组合进行筛选，筛选出组合频率满足预设值的若干个病症特征组合，形成与诊断结果对应的疾病特征，然后通过特向向量化算法对疾病特征组合进行向量化处理，得到向量组合，将向量组合转换为正则表达式。

在实际应用中，一个诊断结果对应有多个疾病特征组合，对此，该步骤在生成正则表达式时，具体为筛选出所述向量组合中的共同特征和不同特征，基于共同特征生成一个正则表达式，然后以不同特征作为所述正则表达式的条件变量，从而得到该共现矩阵对应的正则表达式。

通过对上述方法的实施，首先通过模型对问诊数据进行特征提取，从根本上规避了人为识别特征造成不准确风险，机器本来对时间就不敏感，并且数据越多，对于智能正则表达式系统生成的正则越完善，同时在生成正则表达式具体通过对问诊数据构建共现矩阵，基于共现矩阵进行特征向量化处理，从而生成正则表达式，通过这样的方式生成的表达式，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

请参阅图2，本发明实施例中问诊正则表达式生成方法的第二个实施例包括：

201，获取多个问诊数据和对应的诊断结果；

202，根据诊断结果，从预设的诊断标签表中查询出与诊断结果对应的标签；

该步骤中，在分诊系统中对于不同的检测科目会配置有对应的标签，通过该标签来快速识别出问诊单，从而将问诊单分配至对应的检查门诊。在实际应用中，在确定诊断结果后，基于诊断结果从分诊系统中的标签与诊断结果的关系表中，查询出与当前诊断结果对应的标签，具体的该标签可以是一种印章，也可以是一种颜色标识，甚至还可以是颜色和标记符号的组合。

203，确定与诊断结果对应的问诊数据，利用中文标记算法对问诊数据中的每个字设置上标签的标记，得到标记数据；

在本实施例中，根据诊断结果从多个问诊数据中筛选出对应的问诊数据，然后利用中文标记算法，例如文本的颜色调配规则，对筛选出来的问诊数据进行标记，得到标记数据。

例如，通过算法控制分诊系统对该问诊数据的文本的字体显示颜色调整为与标签中指示的颜色对应的颜色，若还存在标记符号时，将标记符号也标记在每个文字上。

进一步的，若问诊数据为音频文件，其对问诊数据进行标签的设置时，具体包括：利用语音转换技术将音频文件转换为文本，根据标签的具体内容对文本进行标记设置，例如对整个文本设置印章，同时还对文本中的文字进行颜色的设置，从而输出标记数据。

204，根据标签对所有所述标记数据进行分类，生成多个标记数据子集；

该步骤中，所述分类为将所有所述标记数据中标签相同的进行合并，得到一个标记数据子集；

该步骤中，在对问诊数据进行标记处理后，为了提高数据的一致性，这里还根据标签对标记后的标记数据进行分类，实际上是对表达式生成样本按照诊断结果进行分类，同类的合并在一起，从而得到多个标记数据子集。

在实际应用中，以标签为分类参数，利用聚类算法对所有标记数据进行聚类的分析，得到标记数据子集。

205，将多个标记数据子集生成表达式样本集；

该步骤中，具体是将多个标记数据子集进行标签的对应关系设置，形成一个数据表，该数据表中包括表头，表头采用标签设置，表头下的内容为标记数据，从而得到数据对应关系表，从而生成表达式样本集。

206，利用预设的疾病知识图谱识别模型，对表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

该步骤中，疾病知识图谱识别模型包括停用词识别网络和病症识别网络，停用词识别网络是基于神经网络对医疗领域中的话术进行学习而形成的识别网络，所谓的停用词指的是没有实际信息的辅助词语，例如在“医生，您好，我需要看病，麻烦您给我挂下号”这句话中，除了“看病”、“挂号”是有用的信息词语之外，其他的都可以作为停用词来使用，因此，在一句话中停用词较多，根据不同的场景下选择对词语的组合来确定词语的语义，从而识别出停用词，并进行过去，得到最终的病症特征。

207，根据所有样本的特征集生成共现矩阵，并计算共现矩阵中各病症特征之间的组合频率；

208，筛选组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

通过上述的方式的实施，利用的疾病知识图谱模型对标注数据中进行病症特征的提取，避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象，同时利用矩阵和向量化的处理，使得提取的病症特征与诊断结果更加贴合。

请参阅图3，本发明实施例中问诊正则表达式生成方法的第三个实施例包括：

301，获取多个问诊数据和对应的诊断结果；

302，根据诊断结果，从预设的诊断标签表中查询出与诊断结果对应的标签，并基于标签对所有所述标记数据进行分类，生成多个标记数据子集；

该步骤中，具体是根据诊断结果，从预设的诊断标签表中查询出与诊断结果对应的标签，然后确定与诊断结果对应的问诊数据，利用中文标记算法对问诊数据中的每个字设置上标签的标记，得到标记数据，根据标签对所有所述标记数据进行分类，生成多个标记数据子集。

303，根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定标记数据子集的主体内容和非主体内容；

304，利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除，直到所有标记数据子集完成去除非主体内容后，生成表达式样本集；

在实际应用中，在提取主体内容和非主体内容时具体可以通过以下方式实现：

根据中文语法规则对每个标记数据子集中的标记数据进行分词处理，得到所述标记数据子集的字词及对应的词性；

根据语法规则和所述标记数据子集中的字词和对应的词性，对所述标记数据子集中的标记数据进行句式进行分析，得到所述标记数据子集的句式结构。

根据所述句式结构，提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。

然后根据主体内容和非主体内容进行内容的剔除，从而得到最终的表达式样本集。

305，利用停用词识别网络对标记数据子集的主体内容中的每个字词进行语义的识别，并基于识别的结果筛选出无明显语义的字词进行标注，得到标注主体内容；

306，利用分析技术将标注主体内容中无明显语义的字词进行删除，得到样本分词；

307，通过病症识别网络对样本分词进行病症特征的识别和分割，得到标记数据子集的特征集；

在实际应用中，该停用词识别网络具体是根据整理的专业领域的停用词通过神经网络学习得到的，停用词如医生您好、看病、我、经常、有时等在医疗问诊经常会出现但没有明显特征含义的词，避免特征抽取时的杂乱信息干扰；具体的，该停用词识别网络实际上是通过分词工具对标记数据子集中的样本进行分词处理后，基于网络中学习到的停用词对分词进行识别，并对识别出来的停用词进行标记，保留特征，得到标注主体内容。

进一步的，通过语义识别技术对标注主体内容进行语义的匹配识别，具体是根据医疗场景下的词典进行匹配

在实际应用中，该疾病识别网络可以是识别模型，也可以是知识图谱，若是知识图谱时，通过将样本分词中的分词与知识图谱中的特征进行一一匹配来识别，提取出特征集。

308、根据所有样本的特征集生成共现矩阵，并计算共现矩阵中各病症特征之间的组合频率；

该步骤中，在生成共现矩阵和计算特征的组合频率时，具体可以通过以下的方式实现：

根据各所述标记数据子集的特征集中的病症特征构建对应的矩阵表，其中，所述矩阵表包括矩阵表头和矩阵内容表，所述矩阵表头包括列表头和行表头，每个矩阵表中的列表头和行表头中均包含有对应标记数据子集的特征集中的所有病症特征；

统计各标记数据子集中的所述列表头和行表头的病症特征组合在同一个标记数据中出现的次数，并添加到对应的矩阵内容表中，得到各标记数据子集的共现矩阵；

将所述次数计算对应的病症特征组合的组合频率。

309、筛选组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

在本发明实施例中，步骤308-309与上述的问诊正则表达式生成方法的第一个实施例中的步骤103-104一致，在此不做赘述。

综上，上述实施例提供的方法实现正则表达式的自动生成，利用疾病知识图谱识别模型对样本数据进行标注提取特征，将提取到的特征生成一个矩阵，通过该矩阵进行向量化处理，得到向量，基于向量生成正则表达式，通过识别和向量化处理的结合，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

请参阅图4，本发明实施例中问诊正则表达式生成方法的第四个实施例包括：

401，获取多个问诊数据和对应的诊断结果，并基于诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；

402，利用预设的疾病知识图谱识别模型，对表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

403，根据所有样本的特征集生成共现矩阵，并计算共现矩阵中各病症特征之间的组合频率；

404，对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序，并从中选择排序靠前的N个病症特征组合作为共现矩阵对应的诊断结果的诊断特征组合，N为大于1的整数；

405，将诊断特征组合中的每个病症特征进行向量化处理，得到特征向量；

406，根据特征向量生成对应的正则表达式。

下面结合具体的例子对上述的方法进行说明：

如问诊真实语料库痛经问诊数据：

“我来月经后经常肚子疼痛；

医生您好，我想咨询一下每次月经的时候小腹疼的无法忍受怎么办；

月经疼的受不了”；

通过分词后的特征关键词有“月经、肚子、疼、痛、小腹”，通过这些关键词生成共线矩阵，如下表所示：

counts	月经	肚子	疼	痛	小腹
						月经	0	1	3	1	1
肚子	1	0	1	1	0
						疼	3	1	0	1	0
痛	2	1	1	0	1
						小腹	1	0	0	1	0

通过共线矩阵，可以很容易得到，高频组合有(月经，疼)；

通过简单的筛查，我们可以得到痛经问诊的一个重要共同点是【月经疼】的特征；

由开发人员通过简单的正则化，将【月经疼】特征向量生成正则表达式，如：{0,20}(月经)，{0,6}(疼)。

进一步的，为了保证上述生成的正则表达是的准确度，在生成正则表达式之后还包括获取人工生成的正则表达式对该自动生成的正则表达式进行质检。

质检的流程通常是以下几步：

研发人员通过生成的正则表达式，筛选出该正则表达式匹配到的问诊数据；

医生根据筛选出的问诊数据，人工筛查出匹配错误的数据；

研发人员根据医生质检结果，修订补充正则表达式后，重新根据一批新的问诊数据筛选，重复人工筛查验证的操作，直到质检人员认为准确率达标合格后，上线正则表达式。

通过对上述提供的方案的实施，全部由机器学习完成，不仅提升了数量级效率，并且用于生成正则表达式的标注数据量越大，对比人工正则的优势越明显。

进一步的，通过模型对问诊数据进行特征提取，从根本上规避了人为识别特征造成不准确风险，机器本来对时间就不敏感，并且数据越多，对于智能正则表达式系统生成的正则越完善，同时在生成正则表达式具体通过对问诊数据构建共现矩阵，基于共现矩阵进行特征向量化处理，从而生成正则表达式，通过这样的方式生成的表达式，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

上面对本发明实施例中的问诊正则表达式生成方法进行了描述，下面对本发明实施例中的问诊正则表达式生成装置进行描述，请参照图5，本发明实施例中的问诊正则表达式生成装置的一个实施例包括：

标注模块501，用于获取多个问诊数据和对应的诊断结果，并基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；

提取模块502，用于利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

计算模块503，用于根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率；

生成模块504，用于筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

本发明实施例，利用疾病知识图谱识别模型对样本数据进行标注提取特征，将提取到的特征生成一个矩阵，通过该矩阵进行向量化处理，得到向量，基于向量生成正则表达式，通过识别和向量化处理的结合，使得提取的病症特征与诊断结果更加贴合，进一步提高的正则表达式的精准度。

请参阅图6，本发明实施例中的问诊正则表达式生成装置的另一个实施例包括：

在本实施例中，所述标注模块501包括：

查询单元5011，用于根据所述诊断结果，从预设的诊断标签表中查询出与所述诊断结果对应的标签；

标记单元5012，用于确定与所述诊断结果对应的问诊数据，利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记，得到标记数据；

分类单元5013，用于根据所述标签对所有所述标记数据进行分类，生成多个标记数据子集，其中所述分类为将所有所述标记数据中标签相同的进行合并，得到一个标记数据子集；

样本生成单元5014，用于将多个标记数据子集生成表达式样本集。

在本实施例中，所述样本生成单元5014具体用于：根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容；利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除，直到所有标记数据子集完成去除非主体内容后，生成表达式样本集。

在本实施例中，所述样本生成单元5014具体用于：根据中文语法规则对每个标记数据子集中的标记数据进行分词处理，得到所述标记数据子集的字词及对应的词性；根据语法规则和所述标记数据子集中的字词和对应的词性，对所述标记数据子集中的标记数据进行句式进行分析，得到所述标记数据子集的句式结构；根据所述句式结构，提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。

在本实施例中，所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络，所述提取模块502包括：

识别单元5021，用于利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别，并基于识别的结果筛选出无明显语义的字词进行标注，得到标注主体内容；

提取单元5022，用于利用分析技术将所述标注主体内容中无明显语义的字词进行删除，得到样本分词；

分割单元5023，用于通过所述病症识别网络对所述样本分词进行病症特征的识别和分割，得到所述标记数据子集的特征集。

在本实施例中，所述计算模块503包括：

构建单元5031，用于根据各所述标记数据子集的特征集中的病症特征构建对应的矩阵表，其中，所述矩阵表包括矩阵表头和矩阵内容表，所述矩阵表头包括列表头和行表头，每个矩阵表中的列表头和行表头中均包含有对应标记数据子集的特征集中的所有病症特征；

统计单元5032，用于统计各标记数据子集中的所述列表头和行表头的病症特征组合在同一个标记数据中出现的次数，并添加到对应的矩阵内容表中，得到各标记数据子集的共现矩阵；

计算单元5033，用于将所述次数计算对应的病症特征组合的组合频率。

在本实施例中，所述生成模块504包括：

排序单元5041，用于对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序，并从中选择排序靠前的N个病症特征组合作为所述共现矩阵对应的诊断结果的诊断特征组合，N为大于1的整数；

向量化单元5042，用于将所述诊断特征组合中的每个病症特征进行向量化处理，得到特征向量；

表达式生成单元5043，用于根据所述特征向量生成对应的正则表达式。

通过上述方法的实施，通过从采集到的标注数据中提取出病症特征，基于病症特征构建出共现矩阵，从共现矩阵中选择出组合频率较高的特征组合作为与诊断结果对应的特征组合，然后将选择出来的特征组合进行向量化处理，最后基于向量化后的特征组合生成正则表达式，通过这样的方式实现正则表达式的自动生成，其利用的疾病知识图谱模型对标注数据中进行病症特征的提取，避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象。

请参阅图7，下面从硬件处理的角度对本发明实施例中的问诊正则表达式生成设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种问诊正则表达式生成设备的结构示意图，该问诊正则表达式生成设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于路由的用户需求预测设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在问诊正则表达式生成设备700上执行存储介质730中的一系列指令操作。

问诊正则表达式生成设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的问诊正则表达式生成设备结构并不构成对问诊正则表达式生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述问诊正则表达式生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种问诊正则表达式生成方法，其特征在于，所述问诊正则表达式生成方法包括：

获取多个问诊数据和对应的诊断结果，并基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；

利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率；

筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

2.根据权利要求1所述的问诊正则表达式生成方法，其特征在于，所述基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集包括：

根据所述诊断结果，从预设的诊断标签表中查询出与所述诊断结果对应的标签；

确定与所述诊断结果对应的问诊数据，利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记，得到标记数据；

根据所述标签对所有所述标记数据进行分类，生成多个标记数据子集，其中所述分类为将所有所述标记数据中标签相同的进行合并，得到一个标记数据子集；

将多个标记数据子集生成表达式样本集。

3.根据权利要求2所述的问诊正则表达式生成方法，其特征在于，所述将多个标记数据子集生成表达式样本集包括：

根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容；

利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除，直到所有标记数据子集完成去除非主体内容后，生成表达式样本集。

4.根据权利要求3所述的问诊正则表达式生成方法，其特征在于，所述根据中文语法规则对每个标记数据子集中的标记数据进行单独分析，确定所述标记数据子集的主体内容和非主体内容包括：

根据语法规则和所述标记数据子集中的字词和对应的词性，对所述标记数据子集中的标记数据进行句式进行分析，得到所述标记数据子集的句式结构；

5.根据权利要求2-4中任一项所述的问诊正则表达式生成方法，其特征在于，所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络，所述利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集包括：

利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别，并基于识别的结果筛选出无明显语义的字词进行标注，得到标注主体内容；

利用分析技术将所述标注主体内容中无明显语义的字词进行删除，得到样本分词；

通过所述病症识别网络对所述样本分词进行病症特征的识别和分割，得到所述标记数据子集的特征集。

6.根据权利要求5所述的问诊正则表达式生成方法，其特征在于，所述根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率包括：

将所述次数计算对应的病症特征组合的组合频率。

7.根据权利要求6所述的问诊正则表达式生成方法，其特征在于，所述筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式包括：

对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序，并从中选择排序靠前的N个病症特征组合作为所述共现矩阵对应的诊断结果的诊断特征组合，N为大于1的整数；

将所述诊断特征组合中的每个病症特征进行向量化处理，得到特征向量；

根据所述特征向量生成对应的正则表达式。

8.一种问诊正则表达式生成装置，其特征在于，所述问诊正则表达式生成装置包括：

标注模块，用于获取多个问诊数据和对应的诊断结果，并基于所述诊断结果对对应的问诊数据进行标注，得到表达式生成样本集；

提取模块，用于利用预设的疾病知识图谱识别模型，对所述表达式生成样本集中的每个样本进行病症特征的提取，生成每个样本的特征集；

计算模块，用于根据所有样本的特征集生成共现矩阵，并计算所述共现矩阵中各病症特征之间的组合频率；

生成模块，用于筛选所述组合频率中满足预设值的病症特征组合进行向量化处理，并基于向量化后的特征组合生成对应的正则表达式。

9.一种问诊正则表达式生成设备，其特征在于，所述问诊正则表达式生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述问诊正则表达式生成设备执行如权利要求1-7中任一项所述的问诊正则表达式生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的问诊正则表达式生成方法。