CN109033161B - 一种数据处理方法、服务器及计算机可读介质 - Google Patents
一种数据处理方法、服务器及计算机可读介质 Download PDFInfo
- Publication number
- CN109033161B CN109033161B CN201810629995.6A CN201810629995A CN109033161B CN 109033161 B CN109033161 B CN 109033161B CN 201810629995 A CN201810629995 A CN 201810629995A CN 109033161 B CN109033161 B CN 109033161B
- Authority
- CN
- China
- Prior art keywords
- associated entity
- keyword
- original data
- similarity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请实施例公开了一种数据处理方法、服务器及计算机可读介质,其中,该方法包括:接收终端发送的原始数据;对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;利用所述第二关联实体集合对所述原始数据进行信息修正,发送信息修正后的原始数据至所述终端。采用本申请,可以标准化原始数据,为设备提供标准化的输入。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、服务器及计算机可读介质。
背景技术
在进行人机交互时,用户在输入相关数据时容易出现错漏信息或缺失关键信息的情况,就会导致电子设备获取的信息不全或错误,导致对信息的处理结果与预期出现偏差,不够准确。
发明内容
本申请实施例提供了一种数据处理方法、服务器及计算机可读介质,能够标准化原始数据,为设备提供标准化的输入。
第一方面,本申请实施例提供了一种数据处理方法,包括:
接收终端发送的原始数据;对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;利用所述第二关联实体集合对所述原始数据进行信息修正,发送信息修正后的原始数据至所述终端。
可选地,所述对所述原始数据进行处理得到至少一个关联实体,包括:对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
可选地,所述利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合,包括:计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度;根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合;其中,所述至少一个关键词与所述第一关联实体的相似度大于或等于第一预设值。
可选地,所述计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度,包括:统计所述至少一个关键词中各个关键词的词频;根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量;根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
可选地,所述利用所述第二关联实体集合对所述原始数据进行信息修正,包括:计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度;根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合;所述至少一个关键词与所述第三关联实体的相似度大于或等于第二预设值;利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
可选地,所述计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度,包括:获取根据所述第二关联实体集合中各个关联实体对应的第三向量;根据所述第一向量与所述第三向量计算得到的值表征所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
第二方面,本申请实施例提供了一种服务器,包括:
接收单元,用于接收终端发送的原始数据;处理单元,用于对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;筛选单元,用于利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;检索单元,用于根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;修正单元,用于利用所述第二关联实体集合对所述原始数据进行信息修正;发送单元,用于发送信息修正后的原始数据至所述终端。
可选地,所述处理单元,具体用于对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
可选地,所述筛选单元,具体用于计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度;根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合;其中,所述至少一个关键词与所述第一关联实体的相似度大于或等于第一预设值。
可选地,所述筛选单元计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度,具体为统计所述至少一个关键词中各个关键词的词频;根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量;根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
可选地,所述修正单元,具体用于计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度;根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合;所述至少一个关键词与所述第三关联实体的相似度大于或等于第二预设值;利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
可选地,所述修正单元计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度,具体为获取根据所述第二关联实体集合中各个关联实体对应的第三向量;根据所述第一向量与所述第三向量计算得到的值表征所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
第三方面,本申请实施例还提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面及其任一种可选方式所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面及其任一种可选方式所述的方法。
综上所述,服务器可以接收终端发送的原始数据,并可以对该原始数据进行处理得到至少一个关联实体,并可以对该原始数据进行分词得到至少一个关键词,并利用该至少一个关键词对该至少一个关联实体进行筛选得到第一关联实体集合,以便根据该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合来对原始数据进行修正,从而将修正后的原始数据发送至终端,使得返回终端的原始数据更加标准化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的另一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种服务器的结构示意图;
图5是本申请实施例提供的另一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,描述本申请实施例中的技术方案。
请参阅图1,为本申请实施例提供的一种数据处理系统的架构示意图。具体地,该数据处理系统可以包括终端10和服务器20。终端10可以与服务器20进行通信。其中,该终端10包括但不限于智能手机、平板电脑、智能机器人等具有图像处理功能、语音识别功能或文字处理功能等功能的设备。该服务器20可以为互联网中一个单独的服务器或服务器集群。
用户可以在终端10上输入原始数据。该原始数据可以包括但不限于为语音、文字等数据。终端10可以获取该原始数据,并将该原始数据上传至服务器20。服务器20可以对该原始数据进行信息修正,并可以为终端20返回信息修正后的原始数据。终端10可以接收服务器20返回的信息修正后的原始数据,并可以基于该信息修正后的原始数据执行存储、识别等操作。
在一个应用场景中,若终端10发送至服务器20的该原始语句中包括实体部分:A、发动机温火传感器;B、离合器;C、发送机半轴,则服务器20在对该原始语句进行信息修正后得到的信息修正后的原始数据包括:A、发动机温度传感器;B、离合器传动轴;C、发动机驱动轴。终端10可以接收该信息修正后的原始数据,并执行输出操作。
在一个实施例中,服务器20在接收到终端10发送的原始数据后,服务器20可以对原始数据进行分析,以从原始数据中提取至少一个关键词和至少一个关联实体,并可以对该至少一个关联实体进行筛选以提取第一关联实体集合,从而确定出重要的关联实体。服务器20还可以根据该至少一个关键词以及该第一关联实体从图数据库中检索出第二关联实体集合,以再次确定出重要的关联实体。服务器20可以利用该第二关联实体集合对该原始数据进行信息修正,从而发送信息修正后的原始数据至终端10,使得终端10可以根据更加标准化的输入执行识别、存储等相关操作,方便了终端的识别处理等过程。其中,该至少一个关联实体可以为一个或多个关联实体。该至少一个关键词可以为一个或多个关键词。其中,该关联实体可以包括命名实体,或者还可以包括关键词。
请参阅图2,为本申请实施例提供的一种数据处理方法的流程示意图。该方法可以应用在图1所示的数据处理系统中。具体地,该数据处理方法可以包括:
S101、服务器接收终端发送的原始数据。
S102、服务器对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词。
为了方便得到关联实体并提高得到的关联实体的准确度,服务器可以对该原始数据进行处理得到至少一个关联实体。
本申请实施例中,服务器对该原始数据进行处理得到至少一个关联实体,包括:对该原始数据进行同义词标准化处理,得到第一数据,和/或对该原始数据进行谐音词标准化处理,得到第一数据;对该第一数据进行命名实体识别处理,得到至少一个关联实体。
其中,该同义词标准化处理是指识别出原始数据中的第一目标关键词对应的同义词,并利用该同义词替换该第一目标关键词的过程。谐音词标准化处理,是识别出原始数据中第二目标关键词对应的谐音词,并利用该谐音词替换该第二目标关键词的过程。
S103、服务器利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合。
由于该至少一个关联实体是对原始数据进行处理后得到的,因此该至少一个关联实体可能会偏离原始数据想要表达的主旨。为了减小偏离程度并为了使得识别出的关联实体更加准确,服务器可以利用该至少一个关键词对该至少一个关联实体进行筛选,得到第一关联实体集合。其中,该第一关联实体集合中可以包括该至少一个关联实体中满足预设条件的关联实体。
在一个实施例中,服务器利用该至少一个关键词对该至少一个关联实体进行筛选,得到第一关联实体集合,可以包括:服务器可以计算该至少一个关键词与该至少一个关联实体中各个关联实体的相似度,并可以根据计算得到的相似度从该至少一个关联实体中选取第一关联实体以构成第一关联实体集合。其中,该至少一个关键词与该第一关联实体的相似度大于或等于第一预设值。
例如,若该至少一个关键词为关键词A、关键词B、关键词C、关键词D,该至少一个关联实体为关联实体1、关联实体2、关联实体3,第一预设值为0.5,则服务器可以计算该至少一个关键词与该至少一个关联实体中每一个关联实体的相似度。若服务器计算出该至少一个关键词与关联实体1的相似度为0.4,该至少一个关键词与关联实体2的相似度为0.7,该至少一个关键词与关联实体3的相似度为0.8。其中,该至少一个关键词与关联实体2的相似度大于0.5,该至少一个关键词与关联实体3的相似度大于0.5,服务器可以从关联实体1、关联实体2、关联实体3中选取关联实体2和关联实体3构成第一关联实体集合。
在一个实施例中,该至少一个关键词与该第一关联实体的相似度,是该至少一个关联词与至少一个关联实体中各个关联实体的相似度中最大的。
S104、服务器根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合。
该图数据库可以是数据结构,如图形数据结构。该第二关联实体集合中包括一个或多个预设关联实体。
为了进一步提高对关联实体识别的准确度、筛选出重要的关联实体,服务器可以利用该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合。
在一个实施例中,服务器可以通过基于数据结构(如图形数据结构)的检索技术,从该图数据库中检索出第二关联实体集合。
S105、服务器利用所述第二关联实体集合对所述原始数据进行信息修正,发送信息修正后的原始数据至所述终端。
本申请实施例中,服务器可以利用该第二关联实体集合对该原始数据进行信息修正。
在一个实施例中,服务器还可以利用该第二关联实体集合对该原始数据进行信息修正,可以包括:服务器从该第二关联实体集合筛选出第三关联实体以构成第三关联实体集合,并利用该第三关联实体集合对该原始数据进行信息修正。其中,该第三关联实体与所述至少一个关键的相似度大于或等于第二预设值。
例如,若筛选出来的第二关联实体集合包括关联实体3、关联实体4、关联实体5,服务器计算出至少一个关键词与关联实体3的相似度为0.4,第二预设值为0.7,该至少一个关键词与关联实体4的相似度为0.7,该至少一个关键词与关联实体5的相似度0.8,该第三关联实体集合可以包括关联实体4、关联实体5。服务器可以利用关联实体4和关联实体5对原始数据进行修正处理。
在一个实施例中,前述对该原始数据进行信息修正可以包括:替换或补正识别出的原始数据中对应的实体部分所在字段的数据内容。例如,若原始数据中包括发送机和半轴,可以利用第二关联实体集合中的驱动轴替换半轴,则进行信息修正后的原始数据为发送机和驱动轴。
在一个实施例中,该识别出的原始语句中的实体部分可以是在进行命名实体识别处理过程中识别出的。
可见,图2所示的实施例中,服务器可以接收终端发送的原始数据,并可以对该原始数据进行处理得到至少一个关联实体,并可以对该原始数据进行分词得到至少一个关键词,并利用该至少一个关键词对该至少一个关联实体进行筛选得到第一关联实体集合,以便根据该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合来对原始数据进行修正,从而将修正后的原始数据发送至终端,使得返回终端的原始数据更加标准化,便于终端进行处理和识别等操作。
请参阅图3,为本申请实施例提供的另一种数据处理方法的流程示意图。该方法可以应用在图1所示的数据处理系统中。具体地,该方法可以包括:
S201、服务器接收终端发送的原始数据。
S202、服务器对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词。
本申请实施例中,步骤S201-S202可以参见图2实施例中的步骤S102-S102,本申请实施例在此步骤赘述。
S203、服务器统计所述至少一个关键词中各个关键词的词频。
S204、服务器根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量。
S205、服务器根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
本申请实施例中,服务器可以采用常规统计方法、条件统计方法、分布拟合方法等方法对该各个关键词的词频进行处理后得到第一向量,从而可以根据该至少一个关键词的向量计算该各个关键词与数据库中各个待推荐信息的相似度。相应地,该第一向量包括但不限于权重向量或词频向量等向量。
在一个实施例中,服务器根据所述各个关键词的词频计算得到第一向量,可以包括:服务器根据所述各个关键词的词频计算出所述各个关键词的权重,并利用所述各个关键词的权重构成第一向量。例如,服务器采用常规统计方法对该各个关键词的词频进行归一化处理得到该各个关键词的权重,并利用该各个关键词的权重构成第一向量。
在一个实施例中,该第一向量的维度与数据库中字词的数量相同。例如,若数据库中字词的数据为n,则第一向量可以为一个n维向量。
本申请实施例中,服务器可以根据该第一向量以及该第二向量计算出该至少一个关键词中各个关键词与至少一个关联实体中各个关联实体的相似度。其中,该至少一个关键词与该各个关联实体的相似度是根据该第一向量和该第二向量计算得到的值表征出的。
在一个实施例中,若第一向量为S=(S1,S2,…,Sn)、第二向量为X=(X1,X2,…,Xm),其中,n为数据库中字词的数量,m为第一关联实体集合中的关联实体的数量。服务器可以通过距离测量公式计算S与X=(X1,X2,…,Xm)的值。例如,该距离测量公式可以为:
S206、服务器根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合。
其中,该至少一个关键词与该第一关联实体的相似度大于或等于第一预设值。或者该至少一个关键词与该第一关联实体的相似度,是该至少一个关键词与该各个关联实体的相似度中最大的。
在一个实施例中,若该第二向量为X=(X1,X2,…,Xm),则服务器可以从该X=(X1,X2,…,Xm)中提取出满足预设条件的X构成集合{X1,X2,…,Xl},并可以利用该集合{X1,X2,…,Xl}对应的关联实体构成第一关联实体集合。其中,l∈[1,m],l为正整数。具体地,该满足预设条件可以为:
其中,k为正整数,d∈(0,1)。通过该公式确定出的第一关联实体与该至少一个关键词的相似度大于或等于预设相似度。
或者,该满足预设条件还可以为:
其中,MaxS为S统计的上界。通过该公式确定出的第一关联实体与该至少一个关键词的相似度,为该至少一个关键词与该各个关联实体的相似度中最大的。
S207、服务器根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合。
该图数据库可以是数据结构,如图形数据结构。该第二关联实体集合中包括一个或多个预设关联实体。
为了进一步提高对关联实体识别的准确度、筛选出重要的关联实体,服务器可以利用该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合。
在一个实施例中,服务器可以通过基于数据结构(如图形数据结构)的检索技术,从该图数据库中检索出第二关联实体集合。
S208、服务器计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
本申请实施例中,该计算该至少一个关键词和该第二关联实体集合中各个关联实体的相似度,可以包括:获取根据该第二关联实体集合中各个关联实体对应的第三向量,根据该第一向量与该第三向量计算得到的值表征该至少一个关键词和该第二关联实体集合中各个关联实体的相似度。其中,该至少一个关键词和该第二关联实体集合中各个关联实体的相似度是根据该第一向量与该第三向量计算得到的值表征出的。
在一个实施例中,若第一向量为S=(S1,S2,…,Sn)、第二关联实体集合中各个关联实体对应的第三向量为W={W1,W2,…,Wt},其中,m为第二关联实体集合中的关联实体的数量,则服务器可以通过距离测量公式可以计算出第一向量与第三向量的值。例如,该距离测量公式可以为:
S209、服务器根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合。
其中,该至少一个关键词与该第三关联实体的相似度大于或等于第二预设值。或者,该至少一个关键词与该第三关联实体的相似度。为该至少一个关键词与该第三关联实体集合中各个关联实体的相似度中最大的。
在一个实施例中,若该第三向量为W={W1,W2,…,Wt},则服务器可以从该W={W1,W2,…,Wt}中提取出满足预设条件的W构成集合{W1,W2,…,Wnum},并可以利用该集合{W1,W2,…,Wnum}对应的关联实体构成第三关联实体集合。其中,num∈[1,l],l为正整数。具体地,该满足预设条件可以为:
其中,k为正整数,λ∈(0,1)。通过该公式确定出的该第三关联实体与该至少一个关键词的相似度大于或等于第二预设值。
或者,该满足预设条件还可以为:
其中,MaxS为S统计的上界。通过该公式确定出的第三关联实体与该至少一个关键词的相似度,为该至少一个关键词与该第三关联实体集合中各个关联实体的相似度中最大的。
S210、服务器利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正,发送信息修正后的原始数据至所述终端。
本申请实施例中,服务器可以利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
在一个实施例中,服务器利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正,可以包括:服务器根据第三关联实体集合中各个关联实体与所述至少一个关联词的相似度,从所述第三关联实体集合中选取目标关联实体对该原始数据进行信息修正。其中,该目标关联实体与所述至少一个关键词的相似度大于或等于第三预设值。
在一个实施例中,前述对原始数据进行信息修正,可以包括:替换或补正识别出的原始数据中对应的实体部分所在字段的数据内容。例如,若原始数据中包括发送机和半轴,可以利用第三关联实体集合中的驱动轴替换半轴,则进行信息修正后的原始数据为发送机和驱动轴。
在一个实施例中,该识别出的原始语句中的实体部分可以是在进行命名实体识别处理过程中识别出的。
可见,图3所示的实施例中,服务器可以根据原始数据得到至少一个关键词,并可以对根据该至少一个关键词的词频计算得到第一向量,并可以从数据库中获取至少一个关联实体中各个关联实体的第二向量,从而根据该第一向量以及该第二向量基础出该至少一个关键词与该至少一个关联实体中各个关联实体的相似度以选取第一关联实体构成第一关联实体集合。服务器在得到第一关联实体集合后,可以根据该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合,并可以从该第二关联实体集合中筛选出第三关联实体集合,以利用该第三关联实体集合对原始数据进行信息修正后将信息修正后的原始数据发送至终端,从而使得返回终端的原始数据更加标准化,便于终端进行处理和识别等操作。
请参阅图4,为本申请实施例提供的一种服务器的结构示意图。该服务器可以应用于图2-图3所示的方法实施例中。具体地,该服务器可以包括:
接收单元10,用于接收终端发送的原始数据。
处理单元20,用于对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词。
筛选单元30,用于利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合。
检索单元40,用于根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体。
修正单元50,用于利用所述第二关联实体集合对所述原始数据进行信息修正。
发送单元60,用于发送信息修正后的原始数据至所述终端。
在一种可选的实施方式中,所述处理单元20,具体用于对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
在一种可选的实施方式中,筛选单元30,具体用于计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度;根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合;其中,所述至少一个关键词与所述第一关联实体的相似度大于或等于第一预设值。
在一种可选的实施方式中,筛选单元30计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度,具体为统计所述至少一个关键词中各个关键词的词频;根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量;根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
在一种可选的实施方式中,修正单元50,具体用于计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度;根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合;所述至少一个关键词与所述第三关联实体的相似度大于或等于第二预设值;利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
在一种可选的实施方式中,所述修正单元50计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度,具体为获取根据所述第二关联实体集合中各个关联实体对应的第三向量;根据所述第一向量与所述第三向量计算得到的值表征所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
可见,图4所示的实施例中,服务器可以接收终端发送的原始数据,并可以对该原始数据进行处理得到至少一个关联实体,并可以对该原始数据进行分词得到至少一个关键词,并利用该至少一个关键词对该至少一个关联实体进行筛选得到对关联实体集合,以便根据该至少一个关键词以及该第一关联实体集合从图数据库中检索出第二关联实体集合来对原始数据进行修正,从而将修正后的原始数据发送至终端,使得返回终端的原始数据更加标准化,便于终端进行处理和识别等操作。
参见图5,是本申请实施例提供的另一种服务器的结构示意图。如图5所示的本实施例中的服务器可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。可选地,该输入设备502可以是上述申请实施例中的接收单元10,该输出设备503可以是上述申请实施例中的发送单元60。
在本申请实施例中,由处理器501加载并执行计算机存储介质中存放的一条或一条以上指令,以实现上述图2-图3所示方法流程的相应步骤;具体实现中,计算机存储介质中的一条或一条以上指令由处理器501加载并执行如下步骤:
通过输入设备502接收终端发送的原始数据;
对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;
利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;
根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;
利用所述第二关联实体集合对所述原始数据进行信息修正,通过输出设备503发送信息修正后的原始数据至所述终端。
可选地,该至少一条程序指令由该处理器501加载并执行所述对所述原始数据进行处理得到至少一个关联实体,具体用于执行以下步骤:对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
可选地,该至少一条程序指令由该处理器501加载并执行所述利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合,具体用于执行以下步骤:计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度;根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合;其中,所述至少一个关键词与所述第一关联实体的相似度大于或等于第一预设值。
可选地,该至少一条程序指令由该处理器501加载并执行所述计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度,具体用于执行以下步骤:统计所述至少一个关键词中各个关键词的词频;根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量;根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
可选地,该至少一条程序指令由该处理器501加载并执行所述利用所述第二关联实体集合对所述原始数据进行信息修正,具体用于执行以下步骤:计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度;根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合;所述至少一个关键词与所述第三关联实体的相似度大于或等于第二预设值;利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
可选地,该至少一条程序指令由该处理器501加载并执行所述计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度,具体用于执行以下步骤:获取根据所述第二关联实体集合中各个关联实体对应的第三向量;根据所述第一向量与所述第三向量计算得到的值表征所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
应当理解,所称处理器501可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。该输入设备502与输出设备503还可以为标准的有线或无线通信接口。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储数据库。
在本申请的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现本申请实施例提供的图2和图3所描述的数据处理方法的实现方式。
该计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。该计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,该计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及所述终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
接收终端发送的原始数据;
对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;
利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;
根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;
利用所述第二关联实体集合对所述原始数据进行信息修正,发送信息修正后的原始数据至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行处理得到至少一个关联实体,包括:
对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;
对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
3.根据权利要求1所述的方法,其特征在于,所述利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合,包括:
计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度;
根据计算得到的相似度从所述至少一个关联实体中选取第一关联实体以构成第一关联实体集合;
其中,所述至少一个关键词与所述第一关联实体的相似度大于或等于第一预设值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述至少一个关键词与所述至少一个关联实体中各个关联实体的相似度,包括:
统计所述至少一个关键词中各个关键词的词频;
根据所述各个关键词的词频计算得到第一向量,并从数据库中获取所述至少一个关联实体中各个关联实体各自对应的第二向量;
根据所述第一向量和所述第二向量计算得到的值表征所述至少一个关键词与所述各个关联实体的相似度。
5.根据权利要求4所述的方法,其特征在于,所述利用所述第二关联实体集合对所述原始数据进行信息修正,包括:
计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度;
根据计算得到的相似度从所述第二关联实体集合中选取第三关联实体以构成第三关联实体集合;所述至少一个关键词与所述第三关联实体的相似度大于或等于第二预设值;
利用所述第三关联实体集合中各个关联实体对所述原始数据进行信息修正。
6.根据权利要求5所述的方法,其特征在于,所述计算所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度,包括:
获取根据所述第二关联实体集合中各个关联实体对应的第三向量;
根据所述第一向量与所述第三向量计算得到的值表征所述至少一个关键词和所述第二关联实体集合中各个关联实体的相似度。
7.一种服务器,其特征在于,包括:
接收单元,用于接收终端发送的原始数据;
处理单元,用于对所述原始数据进行处理得到至少一个关联实体,并对所述原始数据进行分词以得到至少一个关键词;
筛选单元,用于利用所述至少一个关键词对所述至少一个关联实体进行筛选,得到第一关联实体集合;
检索单元,用于根据所述至少一个关键词以及所述第一关联实体集合从图数据库中检索出第二关联实体集合;所述第二关联实体集合中包括一个或多个预设关联实体;
修正单元,用于利用所述第二关联实体集合对所述原始数据进行信息修正;
发送单元,用于发送信息修正后的原始数据至所述终端。
8.根据权利要求7所述的服务器,其特征在于,所述处理单元,具体用于对所述原始数据进行同义词标准化处理,得到第一数据,和/或对所述原始数据进行谐音词标准化处理,得到第一数据;对所述第一数据进行命名实体识别处理,得到至少一个关联实体。
9.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810629995.6A CN109033161B (zh) | 2018-06-19 | 2018-06-19 | 一种数据处理方法、服务器及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810629995.6A CN109033161B (zh) | 2018-06-19 | 2018-06-19 | 一种数据处理方法、服务器及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033161A CN109033161A (zh) | 2018-12-18 |
CN109033161B true CN109033161B (zh) | 2021-08-10 |
Family
ID=64609999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810629995.6A Active CN109033161B (zh) | 2018-06-19 | 2018-06-19 | 一种数据处理方法、服务器及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033161B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127597A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 搜索信息的处理方法、装置及电子设备 |
CN111737979B (zh) * | 2020-06-18 | 2021-01-12 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095203A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的确定、搜索方法及服务器 |
CN105956053A (zh) * | 2016-04-27 | 2016-09-21 | 海信集团有限公司 | 一种基于网络信息的搜索方法及装置 |
CN106033466A (zh) * | 2015-03-20 | 2016-10-19 | 华为技术有限公司 | 数据库查询的方法和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645417B2 (en) * | 2008-06-18 | 2014-02-04 | Microsoft Corporation | Name search using a ranking function |
-
2018
- 2018-06-19 CN CN201810629995.6A patent/CN109033161B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095203A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的确定、搜索方法及服务器 |
CN106033466A (zh) * | 2015-03-20 | 2016-10-19 | 华为技术有限公司 | 数据库查询的方法和设备 |
CN105956053A (zh) * | 2016-04-27 | 2016-09-21 | 海信集团有限公司 | 一种基于网络信息的搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109033161A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021012570A1 (zh) | 数据录入方法、装置、设备及存储介质 | |
CN108959247B (zh) | 一种数据处理方法、服务器及计算机可读介质 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN111028006B (zh) | 一种业务投放辅助方法、业务投放方法及相关装置 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN109033161B (zh) | 一种数据处理方法、服务器及计算机可读介质 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN111046879A (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN111061842A (zh) | 一种相似文本确定方法及装置 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110598123A (zh) | 基于画像相似性的信息检索推荐方法、装置及存储介质 | |
CN113704184A (zh) | 一种文件分类方法、装置、介质及设备 | |
CN112667723A (zh) | 一种数据采集的方法及终端设备 | |
CN112445769A (zh) | 基于区块链的链上存储方法、装置、终端设备及介质 | |
CN110852041A (zh) | 一种字段处理方法及相关设备 | |
CN109033070B (zh) | 一种数据处理方法、服务器及计算机可读介质 | |
CN115545753A (zh) | 一种基于贝叶斯算法的合作伙伴预测方法及相关设备 | |
US11380083B1 (en) | Systems and methods for using image analysis to automatically determine vehicle information | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
CN113869926A (zh) | 广告识别方法、装置、电子设备及存储介质 | |
CN111708988A (zh) | 侵权视频识别方法、装置、电子设备及存储介质 | |
CN113434574B (zh) | 基于小样本的数据可靠性分析方法、装置、设备及介质 | |
CN110717503A (zh) | 一种分类方法、装置、电子设备及计算机存储介质 | |
CN115544214B (zh) | 一种事件处理方法、设备及计算机可读存储介质 | |
CN112487039B (zh) | 一种数据处理方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |