CN112287664B

CN112287664B - 文本指标数据解析方法、系统及相应设备和存储介质

Info

Publication number: CN112287664B
Application number: CN202011580371.3A
Authority: CN
Inventors: 张俊锋; 程煜华; 黄俊杰; 侯丹丹; 翟文丽
Original assignee: Wanghai Kangxin Beijing Technology Co ltd
Current assignee: Wanghai Kangxin Beijing Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-06
Anticipated expiration: 2040-12-28
Also published as: CN112287664A

Abstract

本申请公开了文本指标数据解析方法、系统及相应设备和存储介质，其中所述方法包括：将待解析文本分成一个或多个句子；将每一句子分成词语序列并标注每一词语的词性；将每一词语序列分割成一系列简单句；提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量；将所有主谓宾三元组及词向量输入经训练的神经网络，输出每一词向量属于某个指标的概率；将概率最高且高于预定阈值的指标作为预测指标；将预测指标及对应的主谓宾三元组的谓语和宾语结合作为指标数据。本发明使能提高文本指标数据的解析准确度和解析全面性。

Description

文本指标数据解析方法、系统及相应设备和存储介质

技术领域

本申请涉及电数字数据处理领域，尤其涉及文本指标数据解析方法、系统及相应设备和存储介质。

背景技术

大数据领域，需要丰富的指标数据作为数据分析的基础。但作为单个单位，很难收集到整个领域的各种数据。通过从机构公开报告里面包括从年报里面挖掘指标数据是必然之选，因为这些报告、年报包含的数据丰富、安全，不会涉及数据隐私泄露的风险。从技术角度，数据挖掘将涉及自然语言处理、指标识别，对数据分析来说指标的准确率显得尤为重要，需要有比较高的指标解析准确率，同时不能漏掉已经存在的指标（召回率），才能形成可靠的指标数据集。然而，现有的指标数据抽取技术存在准确度较低、解析不全的缺点。

发明内容

为了克服现有技术中存在的不足，本发明提供一种文本指标数据解析方法、系统及相应设备和存储介质，其能提高文本指标数据的解析准确度和解析全面性。

在本发明的第一方面，提供一种文本指标数据解析方法，该方法包括：

将待解析文本分成一个或多个句子；

将每一句子分成词语序列并标注每一词语的词性；

将分完词的每一词语序列分割成一系列简单句；

对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；

生成所有主谓宾三元组的每一主语的词向量；

将所有主谓宾三元组及相应的词向量输入经训练的神经网络，所述神经网络输出每一词向量属于某个指标的概率；

将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标；

将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。

在实施例中，所述方法还包括：在提取每一简单句的主谓宾成分的同时确定每一简单句对应的指标类型。

在实施例中，所述神经网络的训练包括：

将每一已进行指标标注的训练句子分成词语序列并标注每一词语的词性；

将分完词的每一词语序列分成一系列简单句；

生成所有主谓宾三元组的每一主语的词向量；

将所有主谓宾三元组及相应的词向量以及训练文本样本指标标签输入神经网络对神经网络进行训练。

在本发明的第二方面，提供一种文本指标数据解析系统，该系统包括：

复合句解析模块，用于将待解析文本分成一个或多个句子；

分词模块，用于将每一句子分成词语序列并标注每一词语的词性；

简单句分割模块，用于将分完词的每一词语序列分割成一系列简单句；

主谓宾解析模块，用于对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；

词向量生成模块，用于生成所有主谓宾三元组的每一主语的词向量；

分类模块，用于将所有主谓宾三元组及相应的词向量输入经训练的神经网络，所述神经网络输出每一词向量属于某个指标的概率；

预测指标确定模块，用于将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标；

指标数据确定模块，用于将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。

在本发明的第三方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本发明的第一方面的方法的步骤。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面的方法的步骤。

按照本发明，对文本进行了短句子（简单句）分割，使用依存句法分析，对文本中省略主语的句子进行主语补充，而不是直接对文本进行解析，提高了解析的正确性。通过使用词向量模型生成文本特征，而不是使用文本空间向量/关键词进行解析，提高了指标解析的全面性。另外，通过使用词向量作为输入和BP神经网络模型作为输出，通过简单的识别训练，就能达到非常高的准确度，实施简单，节约数据公司成本。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图；

图2为根据本发明系统的一实施例的框图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

图1示出了根据本发明的文本指标数据解析方法的一优选实施例的流程图。

文本可以是各种公开报告、年报、年鉴等。在此以目前互联网公布的卫健委公开报告、医院年鉴数据为例，这些数据里面都可能含有门诊量、出院量、医疗收入、患者均次费用、医保支付额度等重要指标信息。然而，每家机构或者医院都有自己的写作风格、用语习惯，造成很难有通用的识别程序可以一劳永逸的识别出来。提出本发明方法来解决这样的问题。

在步骤S102，将待解析文本分成一个或多个句子。例如，通过中文句尾标点符号即句号、问号、感叹号、分号等将文本分成一系列句子。在报告、年鉴等情形下，这样的句子通常为复合句。例如，某省卫健委的一份公开报告里有这样一段文本：“2018年，全省门诊处方抗菌药物使用率为3.8%，同比下降6.1%；急诊处方抗菌药物使用率为16.2%，同比下降3.6%；住院抗菌药物使用率为31.8%，同比下降0.3%；抗菌药物使用强度为33.1%，同比下降10.5%。”。可将这段文本分成四个句子，即“2018年，全省门诊处方抗菌药物使用率为3.8%，同比下降6.1%”、“急诊处方抗菌药物使用率为16.2%，同比下降3.6%”、“住院抗菌药物使用率为31.8%，同比下降0.3%”和“抗菌药物使用强度为33.1%，同比下降10.5%”。

在步骤S104，将每一句子例如通过中文分词程序分成词语序列并标注每一词语的词性。根据中文分词程序，每一词语可能包含1个字、2个字、3个字、3个以上的字。中文分词程序可以是本领域已知的任何中文分词程序。

在步骤S106，将分完词的每一词语序列分成一系列简单句。目前业界的依存句法解析算法往往只支持简单句子的解析，不支持复合语句的解析（解析正确率低），且以词语序列和词性标注为输入，因而在此将复合语句分割成多个简单句子。例如，句子“急诊处方抗菌药物使用率为16.2%，同比下降3.6%”可按照中文逗号分割成两个简单句子，即“急诊处方抗菌药物使用率为16.2%”和“同比下降3.6%”。

在步骤S108，对于每一词语序列分割得到的一系列简单句，每个简单句子输入依存句法解析算法，解析出句子的依存句法结构，提取每一简单句的主谓宾成分。对于同一词语序列的一系列简单句，如果某一简单句缺乏主语，则将该一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语。例如，在步骤S106的例子中，第二简单句“同比下降3.6%”缺乏主语，则将第一简单句的主语“急诊处方抗菌药物使用率”补充为第二简单句的主语，从而得到每一简单句的主谓宾三元组。例如，在上面的例子中，可得到下面的主谓宾结构的三元组（主语、谓语、宾语）：

（急诊处方抗菌药物使用率，为，16.2%）；

（急诊处方抗菌药物使用率，同比下降，3.6%）。

在步骤S110，例如使用BERT模型对所有主谓宾三元组的每一主语进行编码，将短文本（主语）转换为具有上下文语义的词嵌入向量。BERT（Bidirectional EncoderRepresentations from Transformers）模型是谷歌公司近期提出的一个语言模型，作为一个Word2Vec的替代者，BERT本质上是通过在海量语料的基础上运行自监督学习方法，为单词学习一个好的语义特征表示。BERT模型在语义识别、上下文识别方面具有很大的优势，由于考虑了语义，将增加后面的分类系统如BP神经网络的泛化能力，因而在此优选使用BERT模型。当然，也可采用谷歌公司提供的ALBERT深度学习神经网络模型或其它类似的、可生成词向量的深度学习模型。

在步骤S112，将所有主谓宾三元组及相应的词向量输入经训练的神经网络例如BP（back propagation）神经网络或多分类化的svm。在此以BP神经网络为例。 BP神经网络输出每一词向量属于某个指标的概率。BP神经网络的训练如下：

对含有指标的句子进行人工标注，生成句子对应的指标名称，形成训练语料。对于包含两个以上指标的句子，可以将该句子基于各个内含的指标标注多次。对于不包含指标的句子，可以标注为其他，也可以不标注。标注人员只需要将句子对应的指标标注出来，不需要指出关键词。这不同于传统指标解析系统，传统的基于关键词进行解析，关键词收集要考虑所有场景，会出现解析不全的情况。以医疗领域为例，部分训练语料例如如下：

指标名称	训练句子
		门急诊量	全院门（急）诊总量3362651人次，同比增长1.18%；
日均门急诊量	日均门（急）诊量14620.22人次，同比增长1.19%；
		出院量	出院29438人次，同比增长6.41%；
业务收入	业务总收入28.97亿元，同比增加3.46%。
		总收入	医院总收入为28824万元，比去年同期上升了13.l8%。
业务收入	其中医疗业务收入为27090万元，比去年同期上升了32%；
		人员经费支出	其中人员经费支出9892万元，比去年同期增长了13.34%；
药品支出	药品支出5496万元。
		门诊量	门诊就诊人次161613人次，比去年同期增加20073人次，增长率2%；
出院量	出院病人6764人次，比去年同期增加1631人，增长率31.77%；
		手术量	手术操作3090人次，比去年同期增加792人次，增长率34.46%。
门诊量	总门诊量1022747人次，较去年上涨11.27%；
		日均门诊量	日均门诊量4052人次，较去年上涨11.24%；
出院量	出院量78359人次，较去年上涨13.83%；
		手术量	手术量31658台次，较去年上涨19.12%;
病床周转	病床周转60.73次，较去年增加3.48次；
		病床使用率	病床使用率97.23%，较去年增加0.14%；
平均住院日	平均住院日6.14天，较去年低0.6天。
		总资产	医院资产总额784819万；
总负债	负债总额212719万元。

对每一训练句子进行与上面步骤S104到S110一样的处理，即将每一训练句子分成词语序列并标注每一词语的词性；将分完词的每一词语序列分成一系列简单句；对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量。由于训练句子带有指标标签，将所有主谓宾三元组及相应的词向量以及指标标签（训练语料里面样本的分类值（label））输入BP神经网络对BP神经网络进行训练。BP神经网络的输出代表了词向量属于某个指标的概率。

在步骤S114，将概率最高且高于预定阈值的指标作为待解析文本的预测指标。预定阈值可在BP神经网络训练期间确定。

在步骤S116，将预测指标及相应词向量对应的主谓宾三元组的谓语（如增长、上涨、增加、减少、是、为、占等）和宾语结合作为待解析文本的指标数据。

在实施例中，图1所示的方法还包括：在提取每一简单句的主谓宾成分的同时根据三元组的谓语确定每一简单句对应的指标类型以标记、挖掘指标对应的数值背后代表的含义，但忽略与指标无关的句子及没有数值成分的句子。指标类型例如包括存量指标、增量指标和占比指标。

图2示出了根据本发明的文本指标数据解析系统的一优选实施例的框图，该系统包括：

复合句解析模块202，用于将待解析文本分成一个或多个句子；

分词模块204，用于将每一句子分成词语序列并标注每一词语的词性；

简单句分割模块206，用于将分完词的每一词语序列分割成一系列简单句；

主谓宾解析模块208，用于对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；

词向量生成模块210，用于生成所有主谓宾三元组的每一主语的词向量；

分类模块212，用于将所有主谓宾三元组及相应的词向量输入经训练的BP神经网络，所述BP神经网络输出每一词向量属于某个指标的概率；

预测指标确定模块214，用于将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标；

指标数据确定模块216，用于将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。

在另一实施例中，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤，在此不再赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤，在此不再赘述。

在此所述的多个不同实施方式或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或具有通用串行总线（USB）接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义（即具有“至少一”的意思）。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改，这些变型或修改仍落入本发明的保护范围之内。

Claims

1.一种文本指标数据解析方法，其特征在于，所述方法包括：

将待解析文本分成一个或多个句子；

将每一句子分成词语序列并标注每一词语的词性；

将分完词的每一词语序列分割成一系列简单句；

生成所有主谓宾三元组的每一主语的词向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在提取每一简单句的主谓宾成分的同时确定每一简单句对应的指标类型，其中指标类型包括存量指标、增量指标和/或占比指标。

3.根据权利要求1所述的方法，其特征在于，所述神经网络的训练包括：

将分完词的每一词语序列分成一系列简单句；

生成所有主谓宾三元组的每一主语的词向量；

4.根据权利要求1所述的方法，其特征在于，所述词向量使用BERT或ALBERT模型生成。

5.根据权利要求1所述的方法，其特征在于，所述主谓宾成分通过依存句法解析算法提取。

6.根据权利要求1所述的方法，其特征在于，所述神经网络为BP神经网络。

7.一种文本指标数据解析系统，其特征在于，所述系统包括：

复合句解析模块，用于将待解析文本分成一个或多个句子；

8.根据权利要求7所述的系统，其特征在于，所述神经网络的训练包括：

将分完词的每一词语序列分成一系列简单句；

生成所有主谓宾三元组的每一主语的词向量；

9.一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据权利要求1-6任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-6任一所述的方法的步骤。