CN116775812A

CN116775812A - 一种基于自然语音处理的中医药专利分析与挖掘工具

Info

Publication number: CN116775812A
Application number: CN202310813960.9A
Authority: CN
Inventors: 刘扬; 童元元; 高曼; 李彦文; 张雨琪; 于忱忱
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-19

Abstract

本发明公开了一种基于自然语音处理的中医药专利分析与挖掘工具，包括数据预处理、中医药术语识别、特征提取、分析与挖掘、可视化展示，所述数据预处理的下一步骤为中医药术语识别，所述中医药术语识别的下一步骤为特征提取，所述特征提取的下一步骤为分析与挖掘，本专利技术利用自然语言处理和数据挖掘技术对中医药专利进行自动化处理、分析和挖掘，大大减少了人工干预，提高了分析效率，本专利技术结合领域知识，对中医药专利中的实体、关系和概念进行准确识别和挖掘，发现潜在的规律和关联信息，本专利技术提供了丰富的可视化展示方式，如图形展示、知识图谱等，直观地呈现分析结果，方便用户进行进一步的查询和筛选。

Description

一种基于自然语音处理的中医药专利分析与挖掘工具

技术领域

本发明属于中医药信息处理与知识发现相关技术领域，具体涉及自然语言处理、数据挖掘、文本分析、专利分析与挖掘技术在中医药专利信息中的应用。

背景技术

随着中医药行业的快速发展，专利数量逐年上升，专利信息中蕴含着丰富的知识和商业价值。然而，海量的专利数据和复杂的中医药术语使得人工分析和挖掘的效率低下，且难以准确获取关键信息。因此，利用自然语言处理(NLP)、数据挖掘等技术对中医药专利进行智能化处理和分析具有重要意义。

自然语言处理技术在文本挖掘、信息检索等方面已有广泛应用。近年来，随着深度学习技术的发展，基于深度学习的自然语言处理方法在词义消歧、实体识别、关系抽取等任务上取得了显著的成果。然而，将这些方法应用于中医药专利分析仍面临一定挑战。中医药领域的专业术语、短语和表述方式具有独特性，传统的自然语言处理方法可能无法准确处理这些特殊信息。

数据挖掘技术在关联规则挖掘、聚类分析、分类等方面具有较强的应用能力。然而，将数据挖掘技术应用于中医药专利分析时，需要考虑如何将自然语言处理技术与数据挖掘技术相结合，对文本数据进行有效的预处理和特征提取。此外，由于中医药专利数据的多样性和复杂性，需要设计合适的TE-IDF算法和模型以适应不同类型的分析任务。

目前，针对中医药专利分析的相关研究和应用尚不成熟，缺乏一种有效的、综合运用自然语言处理和数据挖掘技术的中医药专利分析与挖掘工具。因此，开发一种基于自然语言处理的中医药专利分析与挖掘工具具有重要的研究价值和应用前景。

发明内容

本发明的目的在于提供一种基于自然语音处理的中医药专利分析与挖掘工具，以解决上述背景技术中提出的针对中医药专利分析的相关研究和应用尚不成熟，缺乏一种有效的、综合运用自然语言处理和数据挖掘技术的中医药专利分析与挖掘工具问题。

为实现上述目的，本发明提供如下技术方案：一种基于自然语音处理的中医药专利分析与挖掘工具，包括数据预处理、中医药术语识别、特征提取、分析与挖掘、可视化展示；

所述数据预处理的下一步骤为中医药术语识别，所述中医药术语识别的下一步骤为特征提取，所述特征提取的下一步骤为分析与挖掘，所述分析与挖掘的下一步骤为可视化展示。

优选的，所述数据预处理包括数据清洗、数据标准化、数据结构化，所述数据清洗的下一步骤为数据标准化，所述数据标准化的下一步骤为数据结构化，所述数据标准化的下一步骤为数据结构化。

优选的，所述中医药术语识别包括实体识别、关系抽取、术语消岐，所述实体识别的下一步骤为关系抽取，所述关系抽取的下一步骤为术语消岐。

优选的，所述特征提取包括词频统计、TE-IDF算法、词向量表示，所述词频统计的下一步骤为TE-IDF算法，所述TE-IDF算法的下一步骤为词向量表示。

优选的，所述分析与挖掘包括聚类分析、关联规则挖掘、文本分类、情感分析，所述聚类分析的下一步骤为关联规则挖掘，所述关联规则挖掘的下一步骤为文本分类，所述文本分类的下一步骤为情感分析。

优选的，所述可视化展示包括图形展示、知识图谱、交互式界面，所述图形展示的下一步骤为知识图谱，所述知识图谱的下一步骤为交互式界面。

与现有技术相比，本发明提供了一种基于自然语音处理的中医药专利分析与挖掘工具，具备以下有益效果：

高度自动化：本专利技术利用自然语言处理和数据挖掘技术对中医药专利进行自动化处理、分析和挖掘，大大减少了人工干预，提高了分析效率。

准确性与深度挖掘：本专利技术结合领域知识，对中医药专利中的实体、关系和概念进行准确识别和挖掘，发现潜在的规律和关联信息。

可视化展示与交互：本专利技术提供了丰富的可视化展示方式，如图形展示、知识图谱等，直观地呈现分析结果，方便用户进行进一步的查询和筛选。

可扩展性与通用性：本专利技术具有良好的可扩展性，可以根据实际需求进行调整和优化，同时具有较高的通用性，可应用于其他领域的专利分析与挖掘任务。

提高了中医药专利分析的准确性和深度：采用先进的自然语言处理技术，如BERT和Transformer模型，能够捕捉丰富的语义信息和上下文关系，从而提高中医药专利分析的准确性和深度。

融合了中医药领域知识：本专利技术结合领域知识，采用深度学习方法对中医药专利中的实体和关系进行识别和抽取。通过实体识别技术，可以准确地从文本中识别出中医药实体，如草药、症状、疾病等。关系抽取技术则能够发现这些实体间的语义关联，如草药与疾病的治疗关系等。

针对中医药领域特点做出了优化：本专利技术针对中医药领域的特点，设计了一套基于中医药领域知识和语义特征的模型，能够准确地识别和抽取中医药实体和关系。此外，采用了基于词向量表示和相似度度量的聚类分析方法，发现潜在的技术领域和研究方向，为中医药研究提供了有益的支持。

增强了专利分析的效率：本专利技术采用多种技术手段，如缓存处理、并行计算等，大幅提高了中医药专利分析的效率，缩短了分析时间，同时提高了分析精度和深度。

具有可扩展性和通用性：本专利技术的各个模块和TE-IDF算法都是基于通用的自然语言处理技术和深度学习框架，可以方便地扩展和应用到其他领域的专利分析和知识挖掘中，具有很高的通用性和实用性。

综上所述，本专利技术基于现有的自然语言处理和数据挖掘技术，提出了一种高效、准确、可视化的中医药专利分析与挖掘工具。相较于传统方法，本专利技术具有更高的效率、准确性和智能水平，有望推动中医药专利分析与挖掘领域的发展。

附图说明

图1为本发明总流程的结构示意图。

图2为本发明细分流程的结构示意图。

图中：1、数据预处理；11、数据清洗；12、数据标准化；13、数据结构化；2、中医药术语识别；21、实体识别；22、关系抽取；23、术语消岐；3、特征提取；31、词频统计；32、TE-IDF算法；33、词向量表示；4、分析与挖掘；41、聚类分析；42、关联规则挖掘；43、文本分类；44、情感分析；5、可视化展示；51、图形展示；52、知识图谱；53、交互式界面。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1-2所示的一种基于自然语音处理的中医药专利分析与挖掘工具，包括数据预处理1、中医药术语识别2、特征提取3、分析与挖掘4、可视化展示5；

数据预处理1的下一步骤为中医药术语识别2，中医药术语识别2的下一步骤为特征提取3，特征提取3的下一步骤为分析与挖掘4，分析与挖掘4的下一步骤为可视化展示5。

本实施例中，可以利用数据预处理1，对中医药专利数据进行清洗、标准化和结构化处理，提高数据质量，利用中医药术语识别2，通过深度学习技术进行专业术语、实体和关系的识别和抽取，利用特征提取3，基于自然语言处理和数据挖掘技术提取中医药专利的关键特征，利用分析与挖掘4，通过各类算法和模型对提取的特征进行分析与挖掘，发现有价值的信息和知识，利用可视化展示5，将分析结果以图形、表格等形式进行可视化展示，便于用户理解和利用。

如图1-2所示，数据预处理1包括数据清洗11、数据标准化12、数据结构化13，数据清洗11的下一步骤为数据标准化12，数据标准化12的下一步骤为数据结构化13，数据标准化12的下一步骤为数据结构化13。

优选的，通过数据清洗11去除专利文本中的无关字符、标点符号、停用词等，保留有实际意义的文本内容。

通过数据标准化12统一专利文本中的同义词、同义短语，减少术语歧义，提高分析准确性。

通过数据结构化13将非结构化的专利文本转化为结构化数据，便于后续的分析和挖掘

如图1-2所示，中医药术语识别2包括实体识别21、关系抽取22、术语消岐23，实体识别21的下一步骤为关系抽取22，关系抽取22的下一步骤为术语消岐23。

优选的，通过实体识别21利用深度学习技术，如BERT、Transformer等预训练模型，进行中医药领域的实体识别，如药物、病症、方剂等。

通过关系抽取22基于实体识别的结果，采用神经网络模型抽取实体间的关系，如药物与病症的治疗关系、药物与药物的相互作用等。

通过术语消歧23针对中医药领域的多义术语，利用上下文信息和领域知识进行消歧，提高识别准确性。

如图1-2所示，特征提取3包括词频统计31、TE-IDF算法32、词向量表示33，词频统计31的下一步骤为TE-IDF算法32，TE-IDF算法32的下一步骤为词向量表示33。

优选的，通过词频统计31统计专利文本中的词频，挖掘高频词汇，作为关键词和概念。

通过TF-IDF算法32利用TF-IDF算法计算词汇的权重，筛选出具有代表性的关键词和短语。

通过词向量表示33利用Word2Vec、GloVe等词嵌入方法将词汇转化为向量表示，为后续分析提供数学基础。

如图1-2所示，分析与挖掘4包括聚类分析41、关联规则挖掘42、文本分类43、情感分析44，聚类分析41的下一步骤为关联规则挖掘42，关联规则挖掘42的下一步骤为文本分类43，文本分类43的下一步骤为情感分析44。

优选的，通过聚类分析41基于词向量表示和相似度度量，对中医药专利进行聚类分析，发现潜在的技术领域和研究方向。

通过关联规则挖掘42应用Apriori、FP-Growth等算法挖掘专利文本中的关联规则，如药物配伍规律、病症与治疗方法的关联等。

通过文本分类43利用支持向量机、神经网络等分类算法对中医药专利进行分类，辅助分析行业发展趋势和竞争态势。

通过情感分析44基于情感词典和深度学习模型进行情感分析，挖掘专利文本中的技术优势、不足和需求等信息。

如图1-2所示，可视化展示5包括图形展示51、知识图谱52、交互式界面53，图形展示51的下一步骤为知识图谱52，知识图谱52的下一步骤为交互式界面53。

优选的，通过图形展示51利用柱状图、饼图、折线图等图形展示分析结果，如关键词频次分布、专利数量变化趋势等。

通过知识图谱52构建中医药专利知识图谱，直观展示实体、关系和属性之间的联系。

通过交互式界面53设计用户友好的交互式界面，方便用户查询、筛选和下载分析结果。

针对中医药领域对BERT预训练模型的优化应用

在中医药领域的实体识别任务中，BERT模型需要进行微调，以适应该领域的语言特点和知识。具体而言，我们需要为模型提供中医药领域的实体标注数据集，如草药、症状、疾病等实体类型的标注信息，以便模型在微调过程中学习到这些实体的识别规则和语言特点。

下面是BERT模型进行中医药实体识别的算法公式：

输入表示

对于输入序列$x＝(x_1,x_2,...,x_n)$，我们首先将每个单词$x_i$转化为其对应的词向量$e_i$，然后将这些词向量通过双向Transformer网络进行编码，得到每个单词的上下文表示$h_i$，即：

h_i＝BERT(e₁,e₂,...,e_n)

其中，BERT是双向Transformer网络。

实体识别

在微调阶段，我们可以将输入序列中的每个单词都作为候选实体的起始位置，然后利用CRF(条件随机场)模型来判断每个起始位置是否能够构成一个完整的实体。具体而言，我们可以计算每个起始位置$i$到每个终止位置$j$的实体得分$s_{i,j}$，然后根据得分最高的实体作为输出。

s_i,j＝∑_k＝ijh_kWh_jT

其中，$W$是实体得分矩阵，$h_k$和$h_j$分别是起始位置$i$和终止位置$j$的上下文表示。

在中医药领域，我们可以通过领域特定预训练和微调的方式来优化BERT模型，以更好地适应中医药领域的实体识别任务。具体而言，我们可以在预训练阶段使用大量的中医药相关文本进行预训练，然后在微调阶段使用带有标注的中医药实体识别数据集进行微调。这样，BERT模型可以更好地理解和捕捉中医药领域的语言特点和知识，提高实体识别的准确性和深度。

针对中医药领域专利分析特征提取的具体方法

在中医药专利分析中，特征提取是一个非常重要的步骤，其目的是从专利文本中提取出最能代表专利主题的特征，以便后续的分类、聚类、挖掘等任务能够更加准确和有效地进行。以下是一个基于中医药领域的特征提取算法：

文本预处理

首先，我们需要对专利文本进行预处理，包括去除停用词、标点符号等无用信息，然后进行分词，得到单词序列。

词向量表示

对于每个单词，我们可以将其转化为一个固定维度的向量表示，以便后续的计算和处理。这里可以使用预训练的词向量模型，如word2vec或GloVe等，也可以在专利数据集上训练一个自定义的词向量模型。

文本向量表示

将每个单词的向量表示进行加权平均，得到整个文本的向量表示。这里可以使用TF-IDF(词频-逆文档频率)等方法来计算每个单词的权重，以便更好地反映其在整个专利数据集中的重要性。

主题模型

使用主题模型(如LDA)对专利文本进行建模，从中提取出关键词和主题。这些关键词和主题可以作为特征，用于后续的分类、聚类、挖掘等任务。

实体识别

利用实体识别技术，从专利文本中提取出关键实体(如草药、症状、疾病等)，并将其作为特征用于后续的任务。

具体的算法公式如下：

词向量表示

对于每个单词$w_i$，我们可以将其转化为一个$d$维的向量表示$v_i$，即：

v_i＝emb(w_i)

其中，$\text{emb}$是词向量模型。

文本向量表示

将每个单词的向量表示进行加权平均，得到整个文本的向量表示$x$，即：

x＝_n1∑_i＝1ntf-idf(w_i)v_i

其中，$tf-idf(w_i)$是单词$w_i$的TF-IDF权重，$n$是文本中的单词总数。

主题模型

使用主题模型对专利文本进行建模，得到主题-单词分布矩阵$P_{k,w}$和文档-主题分布矩阵$P_{d,k}$。其中，$k$表示主题数量，$d$表示文档数量，$w$表示单词数量。

实体识别

利用实体识别技术，从专利文本中提取出关键实体，得到实体序列$e_1,e_2,\ldots,e_m$，其中$m$表示实体数量。

特征向量表示

将词向量、主题和实体作为特征，将它们的向量表示拼接起来，得到最终的特征向量$f$，即：

f＝[x,t,e₁,e₂,…,e_m]

其中，$t$是文本的主题分布向量。

这个特征提取算法结合了文本的语义信息、主题信息和实体信息，能够更好地反映中医药专利文本的特征，从而提高后续任务的准确性和效率。

应用Apriori、FP-Growth等算法挖掘中医药专利文本中的关联规则

Apriori算法和FP-Growth算法是经典的关联规则挖掘算法。在本方案中，我们可以将这两个算法应用于中医药专利文本中的关联规则挖掘，以发现药物配伍规律、病症与治疗方法的关联等。具体实现流程如下：

数据预处理

首先，需要对中医药专利文本进行处理，包括文本清洗、分词、去除停用词等。可以使用常见的中文分词器，如jieba分词。

构建事务集

将处理后的专利文本转化为事务集，其中每个事务代表一篇专利文本，每个事务中包含若干个项集，每个项集代表一个实体，如草药、症状、疾病等。

频繁项集挖掘

使用Apriori算法或FP-Growth算法挖掘事务集中的频繁项集，以发现其中的关联规则。频繁项集指支持度大于等于最小支持度阈值的项集。

关联规则挖掘

根据频繁项集，生成关联规则，并计算其置信度和支持度。置信度指规则成立的概率，支持度指规则在事务集中出现的频率。可以使用以下公式计算置信度和支持度：

confidence(X→Y)＝_{support(X)support(X∪Y)}

support(X)＝_Ncount(X)

其中，$X$和$Y$分别代表项集，$N$代表事务集的大小，$count(X)$代表包含项集$X$的事务数目，$support(X\cup Y)$代表同时包含项集$X$和$Y$的事务数目。

在中医药领域中，针对其特殊性，通过一些优化措施来提高算法的性能和效果。我们采用领域知识对文本进行语义分析和词义消歧，以提高挖掘效果；同步考虑中药材的属性和功效等特点，针对性地制定最小支持度阈值和置信度阈值，以挖掘出更有价值的关联规则。

关联规则挖掘算法在中医药领域中有着广泛的应用前景，能够挖掘出中药材之间的配伍规律、病症与治疗方法的关联等重要信息，为中医药领域的研究和应用提供支持。

我们采用基于词向量的聚类算法，来实现对中医药专利的聚类分析。

具体的实现流程如下：

预处理

首先，需要对中医药专利文本进行预处理，包括分词、去停用词、统计词频等操作。预处理后得到的文本列表作为输入，可以进一步进行下一步的处理。

训练词向量模型

在进行聚类分析之前，需要训练一个词向量模型。可以采用Word2Vec等算法来训练词向量模型，得到每个词语对应的向量表示。为了优化针对中医药领域的效果，可以采用在大规模中医药文本上预训练的中医药词向量模型。

计算文本向量

对于每个专利文本，将其中每个词语的词向量相加并取平均，得到该文本的文本向量表示。

计算相似度

接下来，通过计算文本向量之间的余弦相似度，得到相似度矩阵。

聚类分析

最后，使用聚类算法，如K-means、层次聚类等，对相似度矩阵进行聚类分析，得到不同的专利类别。

针对中医药领域的特殊之处，我们采用一些中医药专用词典和中医药语料库来训练词向量模型，以提高针对中医药领域的聚类效果。

下面是过程中用到的公式及解释：

词向量模型训练公式(以Word2Vec为例)：

max_Θ∑_w∈C∑_u∈VwlogP(u∣w,Θ)

其中，$C$表示语料库，$V_w$表示$w$的上下文词集合，$\Theta$表示词向量模型的参数。

计算文本向量公式：

_n1∑_i＝1nw_i

其中，$n$表示文本中词语的数量，$w_i$表示第$i$个词语对应的词向量。

余弦相似度计算公式：

cos(θ)＝∥A∥∥B∥AB

其中，$A$和$B$分别表示两个文本向量，$\theta$表示它们之间的夹角

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语音处理的中医药专利分析与挖掘工具，包括数据预处理(1)、中医药术语识别(2)、特征提取(3)、分析与挖掘(4)、可视化展示(5)；

其特征在于：所述数据预处理(1)的下一步骤为中医药术语识别(2)，所述中医药术语识别(2)的下一步骤为特征提取(3)，所述特征提取(3)的下一步骤为分析与挖掘(4)，所述分析与挖掘(4)的下一步骤为可视化展示(5)。

2.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具，其特征在于：所述数据预处理(1)包括数据清洗(11)、数据标准化(12)、数据结构化(13)，所述数据清洗(11)的下一步骤为数据标准化(12)，所述数据标准化(12)的下一步骤为数据结构化(13)，所述数据标准化(12)的下一步骤为数据结构化(13)。

3.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具，其特征在于：所述中医药术语识别(2)包括实体识别(21)、关系抽取(22)、术语消岐(23)，所述实体识别(21)的下一步骤为关系抽取(22)，所述关系抽取(22)的下一步骤为术语消岐(23)。

4.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具，其特征在于：所述特征提取(3)包括词频统计(31)、TE-IDF算法(32)、词向量表示(33)，所述词频统计(31)的下一步骤为TE-IDF算法(32)，所述TE-IDF算法(32)的下一步骤为词向量表示(33)。

5.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具，其特征在于：所述分析与挖掘(4)包括聚类分析(41)、关联规则挖掘(42)、文本分类(43)、情感分析(44)，所述聚类分析(41)的下一步骤为关联规则挖掘(42)，所述关联规则挖掘(42)的下一步骤为文本分类(43)，所述文本分类(43)的下一步骤为情感分析(44)。

6.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具，其特征在于：所述可视化展示(5)包括图形展示(51)、知识图谱(52)、交互式界面(53)，所述图形展示(51)的下一步骤为知识图谱(52)，所述知识图谱(52)的下一步骤为交互式界面(53)。