CN110347696A

CN110347696A - 数据转换方法、装置、计算机设备以及存储介质

Info

Publication number: CN110347696A
Application number: CN201910449413.0A
Authority: CN
Inventors: 周罡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-10-18
Anticipated expiration: 2039-05-28
Also published as: CN110347696B

Abstract

本发明实施例公开了一种数据转换方法、装置、计算机设备以及存储介质，其中，所述方法包括：采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明基于数据处理提供一种数据转换方法，能够将文本数据格式转换成占用空间相对较小的JSON数据格式，以提高数据的传输速率。

Description

数据转换方法、装置、计算机设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据转换方法、装置、计算机设备以及存储介质。

背景技术

目前，人类口述的自然查询语言数据均是以文字数据的格式存储在词义标注语料库中，随着各类型的数据库软件的产生，与数据库相关的自然查询语言数据也在不断的产生，但是对于海量的文字数据存在以下缺点：1、海量的文字数据的保存需要占用相当大的存储空间，2、数据的存储比较耗时、成本高等缺陷；因此，传统的自然查询语言数据的存储方式不能够满足市场需求。

发明内容

有鉴于此，本发明实施例提供一种数据转换方法、装置、计算机设备以及存储介质，可以将文本数据格式转换成占用空间相对较小的JSON数据格式，以提高数据的传输速率。

一方面，本发明实施例提供了一种数据转换方法，该方法包括：

采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；

将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；

对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；

以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；

对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

另一方面，本发明实施例提供了一种数据转换装置，所述装置包括：

采集转换单元，用于采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；

分词单元，用于将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；

词性标注单元，用于对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；

读取单元，用于以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；

格式转换单元，用于对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的数据转换方法。

再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如上所述的数据转换方法。

本发明实施例提供一种数据转换方法、装置、计算机设备以及存储介质，其中方法包括：采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明基于检测模型提供一种数据转换方法，能够将文本数据格式转换成占用空间相对较小的JSON数据格式，以提高数据的传输速率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据转换方法的应用场景示意图；

图2是本发明实施例提供的一种数据转换方法的示意流程图；

图3是本发明实施例提供的一种数据转换方法的另一示意流程图；

图4是本发明实施例提供的一种数据转换方法的另一示意流程图；

图5是本发明实施例提供的一种数据转换方法的另一示意流程图；

图6是本发明实施例提供的一种数据转换装置的示意性框图；

图7是本发明实施例提供的一种数据转换装置的另一示意性框图；

图8是本发明实施例提供的一种数据转换装置的另一示意性框图；

图9是本发明实施例提供的一种数据转换装置的另一示意性框图；

图10是本发明实施例提供的一种数据转换装置的另一示意性框图；

图11是本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的一种数据转换方法的应用场景示意图，图2为本发明实施例提供的一种数据转换方法的流程示意图。该数据转换方法应用于服务器或终端中，其中终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。作为一应用，如图1所示，该数据转换方法应用于服务器10中，该服务器10可以为分布式服务平台中的一台服务器，该服务器10执行自然语言分类指令，并将执行结果反馈在终端20中。

需要说明的是，图1中仅仅示意出一台终端20，在实际操作过程中，服务器10可以将执行结果反馈至多台终端20中。

请参阅图2，图2为本发明实施例提供的一种数据转换方法的示意流程图。如图2所示，该方法包括以下步骤S101～S104。

S101，采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据。

在本发明实施例中，所述自然语言数据指的是用户口述的针对数据库的自然查询语言，比如：用户口述的自然查询语言为：“今年保险的净利润是多少？”，更具体的，可以通过终端上的话筒采集用户输入的自然语言数据，并将所采集的自然语言数据转换成对应的文本数据。

进一步地，如图3所示，所述将所述自然语言数据转换成对应的文本数据的步骤，具体包括步骤S201～S203：

S201，采集用户输入的自然语言数据，并将所述自然语言数据进行数字化处理得到语音信号；

具体的，可以通过在终端/服务器上设置话筒来采集用户输入的自然语言数据，其中，所设置的话筒可以与终端/服务器有线连接，也可以与终端/服务器无线连接；若话筒与终端/服务器有线连接，则可以通过铜导线进行连接，若话筒与终端/服务器无线连接，则可以通过WIFI/蓝牙/红外线无线连接技术与终端/服务器无线连接。在话筒与终端/服务器连接后，用户的自然语言数据就可以通过话筒进行采集并上传到终端/服务器中。

S202，提取所述语音信号的声学特征；

S203，将所述声学特征输入至预设声学模型进行解码，以生成所述文本数据。

在同一个实施例中，将所述自然语言数据转换成对应的文本数据，由于自然语言数据为语音信号，而语音信号属于模拟信号，因此需要将模拟的语音信号进行处理，将其数字化，提取出语音信号的声学特征。其中，可使用如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等方法来提取声学特征。然后，可将声学特征输入至声学模型进行解码，从而得到语音信号所对应的文本数据，其中，声学模型可选用现有的动态时间规划(Dynamic Time Warping，DTW)和隐马尔科夫模型(Hidden Markov Model，HMM)方法来来实现。也就是将所述自然语言数据转换成对应的文本数据的过程。

S102，将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语。

在本发明实施例中，所述将所述文本数据进行分词，包括：使用基于概率统计模型的分词方法对所述文本数据进行分词。例如，令C＝C1C2...Cm，C是待分词的文本数据对应的汉字串，令W＝W1W2...Wn，W是分词的结果，Wa，Wb，…，Wk是C的所有可能的分词方案。那么，基于概率统计的分词模型就是能够找到目的词串W，使得W满足：P(W|C)＝MAX(P(Wa|C)，P(Wb|C)...P(Wk|C))的分词模型，上述分词模型得到的词串W即估计概率为最大之词串，并将词串W作为所述文本数据分词后得到的分词结果。比如：文本数据“2017年的前海征信的营业支出是多少？”，通过上述分词模型进行分词后得到的分词结果为：“2017年”，“前海征信”，“营业支出”，“是”，“多少”，“？”。

S103，对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理。

在本发明实施例中，对上述各词语进行词性标注，例如：“2017年”，“前海征信”，“营业支出”，“是”，“多少”，“？”，可以将“2017年”标注为年份词，“前海征信”可标注为实体词，“营业支出”可标注为目标词，“多少”可标注为数量词等等。然后可将词性为属于虚词的分词删除，即无实际语义的分词，例如“是”、“的”、“又”、“不”等。之后，再对近义词进行归一化处理，即将语义相近的分词进行聚类，可以避免语料数据稀疏的问题，又可以减少特征空间维数，提升数据转换的效率。

进一步地，如图4所示，所述步骤S103包括步骤S301～S302：

S301，根据预设规则对各词语进行词性分析，以确定各词语的词性；

在本发明实施例中，词性分析是将词语根据词语属性分为年份词、实体词、目标词和数量词等。例如，对于“2017年”归为年份词，“前海征信”归为实体词，“营业支出”归为目标词等等。

S302，根据所确定的词性使用相应的标签词对各词语进行词性标注。

在本发明实施例中，在确定各词语的词性之后，为每个词语加注标签词，所述标签词根据词语属性进行确定，例如，对于年份词，对应的标签词为“年份”，对于实体词，对应的标签词为“实体”，对于目标词，对应的标签词为“目标”，对于数量词，对应的标签词为“数量”。

在本实施例中，对于不同词性的词语使用标签词进行词性标注，例如：“2017年”，“前海征信”，“营业支出”，“是”，“多少”，“？”，可以将“2017年”标注为年份，“前海征信”可标注为实体，“营业支出”可标注为目标，“多少”可标注为数量等等。

S104，以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List。

在本发明实施例中，通过创建Datatable对象的形式读取归一化处理后的多个词语，其中，创建Datatable对象的方法包括以下至少一种：a、通过Datatable构造函数创建；b、通过使用DataAdapter对象的Fill方法或FillSchema方法在DataSet中创建；c、通过使用数据集(DataSet)的ReadXML、ReadXMLSchema或InferXMLSchema方法根据预定义的XML文件进行创建。在使用Datatable读取归一化处理后的多个词语之后，遍历Datatable中的数据并生成List，具体的，在生成List之前需要先创建List集合对象，创建的方法可以为通过使用JAVA的实现类ArrayList创建List集合对象，例如List<String>list＝new ArrayList<String>()，然后利用所创建的list对象调用add()方法存入从Datatable中遍历得到的数据，即利用所创建的list对象调用add()方法存入从Datatable中遍历得到的多个词语。

S105，对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

在本发明实施例中，文本数据格式数据量较大，在数据传输，转移以及存储时比较耗费时间以及存储空间，因此需要将文本数据格式转换成占用空间相对较小的文件，以提高数据的传输速率。本实施例中，通过自编程序代码将所述多个词语按照先后顺序转换成JSON格式的数据，并将转换后的JSON格式数据存储在一个JSON文本中。

进一步地，如图5所示，所述对List中的多个词语转换为JSON格式的数据的步骤，具体包括以下步骤：S401～S404。

S401，遍历List中的所有词语。

S402，使用预设JSON格式模板构建与每一词语相对应的键值对。

在本实施例中，在预设JSON格式模板的开头部分以键值对的形式(“键：值”)添加数据类型、参考坐标系，每个键值对分别用“，”隔开；在字段组(Fields)中添加字段列表，每个字段包括名称(name)，类型(fieldtype)，长度(length)三个键值对，每个键值对分别用“，”隔开，相邻的字段用“，”分割，所有的字段分别与字段值组成键值对。

S403，使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中。

在本实施例中，所述第一预设字符为“，”，所述第二预设字符为“{}”，所述使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中，即每个键值对之间用“，”分开，所有的键值对存放在“{}”中。

S404，将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据。

在本实施例中，将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据，例如，将分词“2017年”，“前海征信”，“营业支出”，“多少”转换成JSON格式的数据的格式如下：

{

"question":"2017年的前海征信的营业支出是多少？"，

"account":"营业支出"，

"entity":"前海征信"，

"NTR":"2017年"，

"number":"多少"，

}

最后，将所述JSON格式的数据导入到预设数据存储目录中，具体为通过Hadoop自带-put命令将格式化的JSON格式数据导入到hdfs目录下进行保存。

由以上可见，本发明实施例通过采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；将归一化处理后的所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明基于数据处理提供一种数据转换方法，能够将文本数据格式转换成占用空间相对较小的JSON数据格式，以提高数据的传输速率。

请参阅图6，对应上述一种数据转换方法，本发明实施例还提出一种数据转换装置，该装置100包括：采集转换单元101、分词单元102、词性标注单元103、读取单元104、格式转换单元105。

其中，采集转换单元101，用于采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；

分词单元102，用于将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；

词性标注单元103，用于对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；

读取单元104，用于以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；

格式转换单元105，用于对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

由以上可见，本发明实施例通过采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据；将所述文本数据进行分词，得到所述文本数据的分词结果，所述分词结果包括一个或者多个词语；对所述分词结果中的各词语进行词性标注，以及进行近义词归一化处理；以Datatable形式读取归一化处理后的多个词语，然后遍历Datatable数据为List；对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明基于数据处理提供一种数据转换方法，能够将文本数据格式转换成占用空间相对较小的JSON数据格式，以提高数据的传输速率。

请参阅图7，所述采集转换单元101，包括：

采集处理单元101a，用于采集用户输入的自然语言数据，并将所述自然语言数据进行数字化处理得到语音信号；

提取单元101b，用于提取所述语音信号的声学特征；

生成单元101c，用于将所述声学特征输入至预设声学模型进行解码，以生成所述文本数据。

请参阅图8，所述分词单元102，包括：

分词子单元102a，用于使用基于概率统计模型的分词方法对所述文本数据进行分词。

请参阅图9，所述词性标注单元103，包括：

词性分析单元103a，用于根据预设规则对各词语进行词性分析，以确定各词语的词性；

词性标注子单元103b，用于根据所确定的词性使用相应的标签词对各词语进行词性标注。

请参阅图10，所述格式转换单元105，包括：

遍历单元105a，用于遍历List中的所有词语；

构建单元105b，用于使用预设JSON格式模板构建与每一词语相对应的键值对；

存放单元105c，用于使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中；

保存单元105d，用于将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据。

上述数据转换装置与上述数据转换方法一一对应，其具体的原理和过程与上述实施例所述方法相同，不再赘述。

上述数据转换装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能和语音输入功能的电子装置。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图11，该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器502执行一种数据转换方法。该计算机设备500的处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种数据转换方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502执行所述计算机程序时实现如下操作：

在一个实施例中，所述采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据，包括：

采集用户输入的自然语言数据，并将所述自然语言数据进行数字化处理得到语音信号；

提取所述语音信号的声学特征；

将所述声学特征输入至预设声学模型进行解码，以生成所述文本数据。

在一个实施例中，所述将所述文本数据进行分词，包括：

使用基于概率统计模型的分词方法对所述文本数据进行分词。

在一个实施例中，所述对所述分词结果中的各词语进行词性标注，包括：

根据预设规则对各词语进行词性分析，以确定各词语的词性；

根据所确定的词性使用相应的标签词对各词语进行词性标注。

在一个实施例中，所述对List中的多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中，包括：

遍历List中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中；

将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现以下步骤：

提取所述语音信号的声学特征；

在一个实施例中，所述将所述文本数据进行分词，包括：

遍历List中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路，例如CPU(Central

Processing Unit，中央处理器)，或通过ASIC(Application SpecificIntegrated Circuit，专用集成电路)来实现。

本发明实施例数据转换方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例数据转换装置中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据转换方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述采集用户输入的自然语言数据，并将所述自然语言数据转换成对应的文本数据，包括：

提取所述语音信号的声学特征；

3.如权利要求1所述的方法，其特征在于，所述将所述文本数据进行分词，包括：

4.如权利要求1所述的方法，其特征在于，所述对所述分词结果中的各词语进行词性标注，包括：

5.如权利要求1所述的方法，其特征在于，所述对List中的多个词语按照先后顺序转换为JSON格式的数据，包括：

遍历List中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

6.一种数据转换装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述采集转换单元，包括：

采集处理单元，用于采集用户输入的自然语言数据，并将所述自然语言数据进行数字化处理得到语音信号；

提取单元，用于提取所述语音信号的声学特征；

生成单元，用于将所述声学特征输入至预设声学模型进行解码，以生成所述文本数据。

8.如权利要求6所述的装置，其特征在于，所述词性标注单元，包括：

词性分析单元，用于根据预设规则对各词语进行词性分析，以确定各词语的词性；

词性标注子单元，用于根据所确定的词性使用相应的标签词对各词语进行词性标注。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的数据转换方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1-5任一项所述的数据转换方法。