CN112270186B

CN112270186B - 一种基于熵模型的口辣文本信息匹配系统

Info

Publication number: CN112270186B
Application number: CN202011217892.2A
Authority: CN
Inventors: 杜登斌; 杜小军; 杜乐
Original assignee: Wuzheng Intelligent Technology Beijing Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2024-02-02
Anticipated expiration: 2040-11-04
Also published as: CN112270186A

Abstract

本发明提出了一种基于熵模型的口辣文本信息匹配系统。包括：获取模块，获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并分别建立口辣分词集合以及疾病特征词集合；模型建立模块，建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，建立口辣分词模型；计算模块，建立TextRank算法，获取待匹配口辣文本信息，提取待匹配口辣文本信息中的关键词作为待匹配特征词；匹配模块，根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。本发明通过利用最大熵模型与TextRank算法能够自动对口辣文本信息进行匹配，提高了系统的匹配效率。

Description

一种基于熵模型的口辣文本信息匹配系统

技术领域

本发明涉及人工智能领域，尤其涉及一种基于熵模型的口辣文本信息匹配系统。

背景技术

俗话说，“鼻闻香臭，舌尝五味”。酸、甜、苦、辣、咸五味的信息，是靠舌面上密布的细小乳头，称为舌蕾的味觉细胞来传递的，再经大脑皮质味觉中枢产生兴奋，由反馈环路神经体液系统完成整个味的分析活动但是有的人在进食时，口中会有异味感，或者不进食口腔内也觉得有异常味道，这常常提示可能得了某种疾病。

现在医学实现口辣文本信息与对应疾病信息之间的匹配手段往往是通过临床医生完成对口辣文本的收集，然后通过医生在电脑上进行操作选择，费时费力，而且用户等待结果也是一个比较长的过程，所以亟需对现有的匹配方法进行改进。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

有鉴于此，本发明提出了一种基于熵模型的口辣文本信息匹配系统，旨在解决现有技术无法实现通过最大熵模型对口辣信息进行训练以此实现口辣文本信息自动匹配的技术问题。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于熵模型的口辣文本信息匹配系统，所述基于熵模型的口辣文本信息匹配系统包括：

获取模块，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；

模型建立模块，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；

计算模块，用于建立TextRank算法，获取待匹配口辣文本信息，根据TextRank算法提取待匹配口辣文本信息中的关键词作为待匹配特征词；

匹配模块，用于根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。

在以上技术方案的基础上，优选的，获取模块包括处理模块，用于获取口辣文本信息以及疾病文本信息，所述口辣文本信息包括：口辣描述文本信息以及对应的症状描述文本信息，疾病文本信息包括：疾病描述文本信息以及对应的疾病症状描述文本信息，从口辣文本信息以及疾病文本信息中切分出对应的特征词为口辣特征分词以及疾病特征词，所述口辣特征分词包括：口辣特征分词以及口辣症状特征分词，所述疾病特征词包括：疾病特征词以及疾病症状特征词。

在以上技术方案的基础上，优选的，获取模块包括集合建立模块，用于根据归一化原则对口辣特征分词以及疾病特征词进行归一化，获取归一化的口辣特征分词以及疾病特征词，并根据归一化的口辣特征分词建立口辣分词集合，根据归一化的疾病特征词建立疾病特征词集合。

在以上技术方案的基础上，优选的，模型建立模块包括训练模块，用于建立最大熵模型，将口辣分词集合中的特征分词作为特征，疾病特征词集合中的特征词作为对应的输出建立训练集，并通过最大熵模型对训练集进行训练，根据训练结果建立口辣分词模型。

在以上技术方案的基础上，优选的，计算模块包括算法模块，用于建立TextRank算法，获取待匹配口辣文本信息，通过TextRank算法计算出待匹配口辣文本信息中每个词的权重值，根据权重值确定待匹配口辣文本信息中的关键词作为待匹配特征词。

在以上技术方案的基础上，优选的，匹配模块包括匹配报告生成模块，用于根据口辣分词模型对待匹配特征词进行计算匹配，同时获取对应的疾病特征词，并根据匹配结果与对应的疾病特征词生成对应的匹配报告。

更进一步优选的，所述基于熵模型的口辣文本信息匹配设备包括：

获取单元，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；

模型建立单元，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；

计算单元，用于建立TextRank算法，获取待匹配口辣文本信息，根据TextRank算法提取待匹配口辣文本信息中的关键词作为待匹配特征词；

匹配单元，用于根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。

本发明的一种基于熵模型的口辣文本信息匹配系统相对于现有技术具有以下有益效果：

(1)通过利用最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，能够提高口辣分词与疾病特征词之间的关联性，同时能够提高后续信息匹配的精确度。

(2)通过利用TextRank算法能够精确从待匹配口辣文本信息中提取关键词，提高了后续信息文本的匹配效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于熵模型的口辣文本信息匹配系统第一实施例的结构框图；

图2为本发明基于熵模型的口辣文本信息匹配系统的第二实施例结构框图；

图3为本发明基于熵模型的口辣文本信息匹配系统的第三实施例结构框图；

图4为本发明基于熵模型的口辣文本信息匹配系统的第四实施例结构框图；

图5为本发明基于熵模型的口辣文本信息匹配系统的第五实施例结构框图；

图6为本发明基于熵模型的口辣文本信息匹配设备结构框图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，图1为本发明基于熵模型的口辣文本信息匹配系统第一实施例的结构框图。其中，所述基于熵模型的口辣文本信息匹配系统包括：获取模块10、模型建立模块20、计算模块30和匹配模块40。

获取模块10，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；

模型建立模块20，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；

计算模块30，用于建立TextRank算法，获取待匹配口辣文本信息，根据TextRank算法提取待匹配口辣文本信息中的关键词作为待匹配特征词；

匹配模块40，用于根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。

进一步地，如图2所示，基于上述各实施例提出本发明基于熵模型的口辣文本信息匹配系统的第二实施例结构框图，在本实施例中，获取模块10还包括：

处理模块101，用于获取口辣文本信息以及疾病文本信息，所述口辣文本信息包括：口辣描述文本信息以及对应的症状描述文本信息，疾病文本信息包括：疾病描述文本信息以及对应的疾病症状描述文本信息，从口辣文本信息以及疾病文本信息中切分出对应的特征词为口辣特征分词以及疾病特征词，所述口辣特征分词包括：口辣特征分词以及口辣症状特征分词，所述疾病特征词包括：疾病特征词以及疾病症状特征词。

集合建立模块102，用于根据归一化原则对口辣特征分词以及疾病特征词进行归一化，获取归一化的口辣特征分词以及疾病特征词，并根据归一化的口辣特征分词建立口辣分词集合，根据归一化的疾病特征词建立疾病特征词集合。

应当理解的是，本实施例首先会获取口辣文本信息以及疾病文本信息，所述口辣文本信息包括：口辣描述文本信息以及对应的症状描述文本信息，疾病文本信息包括：疾病描述文本信息以及对应的疾病症状描述文本信息，从口辣文本信息以及疾病文本信息中切分出对应的特征词为口辣特征分词以及疾病特征词，所述口辣特征分词包括：口辣特征分词以及口辣症状特征分词，所述疾病特征词包括：疾病特征词以及疾病症状特征词。

应当理解的是，口辣是指口内常觉辛辣或舌体麻辣，如食辣椒样感觉，常由肺热或胃热引起，肺热者常见口味辛辣，鼻咽干燥，咳吐粘稠黄痰，烦躁口渴，小便黄赤，舌红苔黄，脉滑数等；胃热者常见口辣，口舌干燥，消谷善饥，胃脘灼热，齿龈肿痛，大便燥结，舌质红，苔黄厚，脉滑数等症状。

应当理解的是，疾病描述文本信息以及对应的疾病症状描述文本信息包括：口舌辛辣，鼻咽干燥，咳吐黏稠黄痰，烦躁口渴，小便黄赤，舌红苔黄，脉滑数等；中医胃火上炎主要症状为：口辣，口舌干燥，消谷善饥，胃脘灼热，齿龈肿痛，大便燥结，舌质红，苔黄厚，脉数等；中医肝火偏旺主要症状为：口辣伴有面赤目赤，口干口苦，喜怒，胁痛胁胀，大便干结，小便短赤，苔黄，脉弦数；中医心火上炎主要症状为：口舌糜破，疼痛，口中常有辣味感，小便短赤，淋痛，舌尖红赤，脉细而数等。

应当理解的是，在得到特征词之后，为了方便后续对信息文本进行匹配，同时也是为了方便计算，本实施例会对特征词进行归一化处理，即根据归一化原则对口辣特征分词以及疾病特征词进行归一化，获取归一化的口辣特征分词以及疾病特征词，并根据归一化的口辣特征分词建立口辣分词集合，根据归一化的疾病特征词建立疾病特征词集合。

进一步地，如图3所示，基于上述各实施例提出本发明基于熵模型的口辣文本信息匹配系统的第三实施例结构框图，在本实施例中，模型建立模块20还包括：

训练模块201，用于建立最大熵模型，将口辣分词集合中的特征分词作为特征，疾病特征词集合中的特征词作为对应的输出建立训练集，并通过最大熵模型对训练集进行训练，根据训练结果建立口辣分词模型。

应当理解的是，最大熵模型是基于最大熵原理的分类模型，对于随机变量X，其概率分布为P(X)，一般在约束条件下会有无数P(X)存在，最大熵原理即是在符合所有约束条件下的P(X)中，熵最大模型即为最优模型。

应当理解的是，本实施例中，是将口辣分词集合中的特征分词作为特征，即P(X)，将疾病特征词集合中的特征词作为对应的输出即约束条件，并以此建立训练集，通过最大熵模型对训练集进行训练，根据训练结果建立口辣分词模型，建立最大熵模型的好处是可以很明确看出各个信息文本之间的关系，对于后续信息文本的匹配精确度有了很大的提高。

进一步地，如图4所示，基于上述各实施例提出本发明基于熵模型的口辣文本信息匹配系统的第四实施例结构框图，在本实施例中，计算模块30包括：

算法模块301，用于建立TextRank算法，获取待匹配口辣文本信息，通过TextRank算法计算出待匹配口辣文本信息中每个词的权重值，根据权重值确定待匹配口辣文本信息中的关键词作为待匹配特征词。

应当理解的是，TextRank算法是由PageRank改进而来，核心思想将文本中的词看作图中的节点，通过边相互连接，不同的节点会有不同的权重，权重高的节点可以作为关键词。

应当理解的是，本实施例中通过TextRank算法计算出待匹配口辣文本信息中每个词的权重值，根据权重值确定待匹配口辣文本信息中的关键词作为待匹配特征词，这样得到的待匹配特征词的精确度很高，有助于后续信息文本的匹配。

进一步地，如图5所示，基于上述各实施例提出本发明基于熵模型的口辣文本信息匹配系统的第五实施例结构框图，在本实施例中，匹配模块40包括：

匹配报告生成模块401，用于根据口辣分词模型对待匹配特征词进行计算匹配，同时获取对应的疾病特征词，并根据匹配结果与对应的疾病特征词生成对应的匹配报告。

应当理解的是，最后本实施例会根据口辣分词模型对待匹配特征词进行计算匹配，同时获取对应的疾病特征词，并根据匹配结果与对应的疾病特征词生成对应的匹配报告，比如：心火上亢。舌为心之苗，心火上亢则舌先受之，又舌为味觉器官，心火上亢则舌受之而有火辣样感觉。舌质微红，舌中央或边尖有火辣样、麻辣样感觉；胃火上炎。舌为胃之外侯，胃火盛则上炎于舌，胃火上炎而舌有火辣样感觉；肝火郁结。情怀不畅之人，每多肝郁气滞，气郁久则易化火生热，肝郁化火，火气上炎，则易出现口舌辣麻样感觉。

需要说明的是，以上仅为举例说明，并不对本申请的技术方案构成任何限定。

通过上述描述不难发现，本实施例提出了一种基于熵模型的口辣文本信息匹配系统，包括：获取模块，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；模型建立模块，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；计算模块，用于建立TextRank算法，获取待匹配口辣文本信息，根据TextRank算法提取待匹配口辣文本信息中的关键词作为待匹配特征词；匹配模块，用于根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。实施例通过利用最大熵模型与TextRank算法能够自动对口辣文本信息进行匹配，提高了系统的匹配效率。

此外，本发明实施例还提出一种基于熵模型的口辣文本信息匹配设备。如图6所示，该基于熵模型的口辣文本信息匹配设备包括：获取单元100、模型建立单元200、计算单元300以及匹配单元400。

获取单元100，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；

模型建立单元200，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；

计算单元300，用于建立TextRank算法，获取待匹配口辣文本信息，根据TextRank算法提取待匹配口辣文本信息中的关键词作为待匹配特征词；

匹配单元400，用于根据口辣分词模型对待匹配特征词进行匹配，并生成对应匹配报告。

此外，需要说明的是，以上所描述的装置实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于熵模型的口辣文本信息匹配系统，此处不再赘述。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于熵模型的口辣文本信息匹配系统，其特征在于，所述基于熵模型的口辣文本信息匹配系统包括：

获取模块，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；所述口辣文本信息包括：口辣描述文本信息以及对应的症状描述文本信息，疾病文本信息包括：疾病描述文本信息以及对应的疾病症状描述文本信息，从口辣文本信息以及疾病文本信息中切分出对应的特征词为口辣特征分词以及疾病特征词，所述口辣特征分词包括：口辣特征分词以及口辣症状特征分词，所述疾病特征词包括：疾病特征词以及疾病症状特征词；

模型建立模块，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；具体包括，获取归一化的口辣特征分词以及疾病特征词，并根据归一化的口辣特征分词建立口辣分词集合，根据归一化的疾病特征词建立疾病特征词集合；还包括，将口辣分词集合中的特征分词作为特征，疾病特征词集合中的特征词作为对应的输出建立训练集，并通过最大熵模型对训练集进行训练，根据训练结果建立口辣分词模型；

2.如权利要求1所述的基于熵模型的口辣文本信息匹配系统，其特征在于：计算模块包括算法模块，用于建立TextRank算法，获取待匹配口辣文本信息，通过TextRank算法计算出待匹配口辣文本信息中每个词的权重值，根据权重值确定待匹配口辣文本信息中的关键词作为待匹配特征词。

3.如权利要求2所述的基于熵模型的口辣文本信息匹配系统，其特征在于：匹配模块包括匹配报告生成模块，用于根据口辣分词模型对待匹配特征词进行计算匹配，同时获取对应的疾病特征词，并根据匹配结果与对应的疾病特征词生成对应的匹配报告。

4.一种基于熵模型的口辣文本信息匹配设备，其特征在于，所述基于熵模型的口辣文本信息匹配设备包括：

获取单元，用于获取口辣文本信息以及疾病文本信息，分别从口辣文本信息以及疾病文本信息中提取口辣特征分词与疾病特征词，并根据该口辣特征分词与疾病特征词分别建立口辣分词集合以及疾病特征词集合；所述口辣文本信息包括：口辣描述文本信息以及对应的症状描述文本信息，疾病文本信息包括：疾病描述文本信息以及对应的疾病症状描述文本信息，从口辣文本信息以及疾病文本信息中切分出对应的特征词为口辣特征分词以及疾病特征词，所述口辣特征分词包括：口辣特征分词以及口辣症状特征分词，所述疾病特征词包括：疾病特征词以及疾病症状特征词；

模型建立单元，用于建立最大熵模型，根据该最大熵模型对口辣分词集合中的特征分词与疾病特征词集合中的特征词进行训练，根据训练结果建立口辣分词模型；具体包括，获取归一化的口辣特征分词以及疾病特征词，并根据归一化的口辣特征分词建立口辣分词集合，根据归一化的疾病特征词建立疾病特征词集合；还包括，将口辣分词集合中的特征分词作为特征，疾病特征词集合中的特征词作为对应的输出建立训练集，并通过最大熵模型对训练集进行训练，根据训练结果建立口辣分词模型；