CN108959247B - 一种数据处理方法、服务器及计算机可读介质 - Google Patents

一种数据处理方法、服务器及计算机可读介质 Download PDF

Info

Publication number
CN108959247B
CN108959247B CN201810629991.8A CN201810629991A CN108959247B CN 108959247 B CN108959247 B CN 108959247B CN 201810629991 A CN201810629991 A CN 201810629991A CN 108959247 B CN108959247 B CN 108959247B
Authority
CN
China
Prior art keywords
sequence
word pair
word
class
pair sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810629991.8A
Other languages
English (en)
Other versions
CN108959247A (zh
Inventor
刘均
秦文礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Launch Technology Co Ltd
Original Assignee
Shenzhen Launch Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Launch Technology Co Ltd filed Critical Shenzhen Launch Technology Co Ltd
Priority to CN201810629991.8A priority Critical patent/CN108959247B/zh
Publication of CN108959247A publication Critical patent/CN108959247A/zh
Application granted granted Critical
Publication of CN108959247B publication Critical patent/CN108959247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种数据处理方法、服务器及计算机可读介质,其中,该方法可以包括:接收终端发送的原始数据;对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列;对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对;将与所述目标意向词对对应的关联信息发送至所述终端。采用本申请,可以为终端提供更准确的输入,有利于提高终端的数据识别速率和准确度。

Description

一种数据处理方法、服务器及计算机可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、服务器及计算机可读介质。
背景技术
人机交互是指人与计算机之间信息交互的过程。随着人机交互技术的发展,终端可以自动化识别用户输入的控制指令等信息,并根据该控制指令等信息执行控制操作等操作。然而,在人机交互过程中,由于用户输入的控制指令等信息会随着用户习惯等因素呈现出多样化的特点,这就导致终端在识别用户输入的控制指令等信息的时候速率和准确率较低。
发明内容
本申请实施例提供了一种数据处理方法、服务器及计算机可读介质,可以为终端提供更准确的输入,有利于提高终端的数据识别速率和准确度。
第一方面,本申请实施例提供了一种数据处理方法,包括:
接收终端发送的原始数据;对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列;对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对;将与所述目标意向词对对应的关联信息发送至所述终端。
可选地,所述对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,包括:读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
可选地,所述对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,包括:对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对。
可选地,所述从所述意向词对序列中提取目标意向词对序列,包括:获取所述意向词对序列中各个意向词对对应的概率;所述各个意向词对的概率是由所述词对匹配模型预先计算好的;根据所述各个意向词对的概率,从所述意向词对序列中确定出目标意向词对;所述目标意向词的概率是所述各个意向词对的概率中最大的。
可选地,所述输出所述目标意向词对对应的关联信息之前,所述方法还包括:提取数据库模型;所述数据库模型中存储各个词对与各个关联信息的对应关系;其中,每一个词对对应一个或者多个关联信息;利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
第二方面,本申请实施例提供了一种服务器,包括:
接收单元,用于接收终端发送的原始数据;分词单元,用于对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;处理单元,用于对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列;所述处理单元,还用于对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对;发送单元,用于将与所述目标意向词对对应的关联信息发送至所述终端。
可选地,所述处理单元对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,具体为读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
可选地,所述处理单元对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,具体为对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对。
可选地,所述处理单元从所述意向词对序列中提取目标意向词对序列,具体为获取所述意向词对序列中各个意向词对对应的概率;所述各个意向词对的概率由所述词对匹配模型预先计算得出;将所述各个意向词对中概率最大的意向词对确定为目标意向词对。
可选地,提取单元,用于在发送单元将与所述目标意向词对对应的关联信息发送至所述终端之前,提取数据库模型;所述数据库模型中存储各个词对与各个关联信息的对应关系;所述处理单元,还用于利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
第三方面,本申请实施例还提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面及其任一种可选方式所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面及其任一种可选方式所述的方法。
综上所述,服务器可以接收终端发送的原始数据,并对该原始数据进行处理得到第一类词性序列和第二类词性序列,服务器可以对该第一类词对序列进行命名实体识别得到一个或者多个为预设类别的实体,并对该实体和该第二类词对序列进行处理得到目标意向词对,从而将与该目标词对对应的关联信息发送至该终端,可以为终端预测出重要的信息或解析出重要的信息,从而为终端提供更准确有效的输入,有利于终端提高数据识别速率和准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的另一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种服务器的结构示意图;
图5是本申请实施例提供的另一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,描述本申请实施例中的技术方案。
请参阅图1,为本申请实施例提供的一种数据处理系统的架构示意图。其中,该数据处理系统包括终端10、服务器20。终端10与服务器20之间可以进行通信。其中,该终端10包括但不限于智能手机、平板电脑、智能机器人等信息处理功能(如图像处理功能、语音识别功能)的电子设备。该服务器20可以为互联网中一个单独的服务器或服务器集群。
终端10可以接收用户输入的原始数据,并可以将该原始数据发送至服务器20进行语义识别处理,服务器20可以将根据该原始数据预测出的信息发送至终端10,和/或由服务器20将根据该原始数据解析出的信息发送终端10,从而为终端10提供更加准确有效的输入,以便终端10执行识别等操作。
在一个实施例中,服务器20对原始数据进行语义识别处理,具体可以为:服务器20对该原始数据中的关键词进行词性标注以提取出不同类别的词对序列;该不同类别的词对序列至少包括第一类别词对序列和第二类词对序列;服务器10可以对该第一类词对序列进行命名实体识别得到至少一个实体,从而可以对该至少一个实体以及该第二类词对序列进行解析,得到与目标意向词对对应的关联信息以作为标准输入推送至终端10。
为了更方便快速准确地执行语义识别处理操作,服务器20中可以设有多个模型,如序列模型、词对匹配模型。该多个模型可以存储在相同的数据库中,也可以存储子在不同的数据库中,本申请实施例对其不做限制。
其中,该序列模型可以是已训练好的可以用于实现对输入的词序列进行词性识别以得到词性序列功能的模型。该词序列是对原始数据进行分词后得到的。该模型包括但不限于隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(conditional randomfield,CRF)模型等模型。其中,该序列模型可以是基于预设的第一数据库进行训练的。在一个实施例中,若该序列模型为已经训练好的可以用于实现对输入的词序列进行词性识别以得到词对序列功能的HMM模型,则该序列模型可以表示为H(A,B,π)。其中,A、B、π是在训练过程中拟合出来的参数。
该词对匹配模型可以用于对输入的实体以及词对序列进行处理得到意向词对序列功能的模型。该模型包括但不限于隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(conditional random field,CRF)模型等模型。例如,该词对匹配模型可以对输入的实体以及第二类词对序列进行处理得到意向词对序列。其中,该词对匹配模型可以是基于预设的第二数据库进行训练的。在一个实施例中,若该序列模型为对输入的实体以及词对序列进行处理得到意向词对序列功能的CRF模型,则该词对匹配模型可以表示为C(s,t,λ)。其中,s、t、λ是在训练过程中拟合出来的参数。
请参阅图2,为本申请实施例提供的一种数据处理方法的流程示意图。该方法可以应用于图1所示的数据处理系统中。具体地,该方法可以包括:
S101、服务器接收终端发送的原始数据。
其中,该原始数据包括但不限于语音、文字等数据。
终端可以向服务器发送原始数据,服务器可以接收该终端发送的原始数据。
S102、服务器对所述原始数据进行分词,得到词序列。
本申请实施例中,服务器对该原始数据进行分词,得到词序列,可以包括:服务器对该原始数据进行分词得到一个或多个关键词,并利用该一个或多个关键词构成词序列。其中,该词序列可以包括该一个或多个关键词。
在一个实施例中,服务器对该原始数据进行分词得到的词序列可以表示为W={W1,W2,...,Wn}。例如,若原始数据为语句A:开车上班途中汽车发动机坏了,则服务器在对该原始数据进行分词后,得到的词序列可以为W={开车,上班,途中,汽车,发动机,坏,了}。
S103、服务器对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列。
本申请实施例中,服务器对词序列进行识别可以得到不同类别的词对序列,如第一类词对序列和第二类词对序列。当然,根据实际应用,服务器还可以对该词序列进行词性识别处理,得到第三类词对序列、第四类词对序列等等类别的词对序列,本申请实施例对其不做限定。
本申请实施例中,该不同类别的词对序列可以按照多种形式划分,包括但不限于按照功能、种类、词性等等。
在一个实施例中,该第一类词对序列可以由一个或多个关键词构成,该第二类词对序列也可以由一个或多个关键词构成。例如,第一类词对序列为
Figure BDA0001700250810000061
其中,
Figure BDA0001700250810000062
可以对应于关键词i1
Figure BDA0001700250810000063
可以对应于关键词i2
Figure BDA0001700250810000064
可以对应于关键词im。第二类词对序列可以为
Figure BDA0001700250810000065
其中,
Figure BDA0001700250810000066
可以对应于关键词k1
Figure BDA0001700250810000067
可以对应于关键词k2
Figure BDA0001700250810000068
可以对应于关键词km
例如,第一类词对序列可以为零部件词对序列,该第二类词对序列可以为行动词词对序列。该零部件词对序列中至少可以包括该词序对列中属于零部件的关键词。具体地,该属于零部件的关键词可以为属于汽车零部件的关键词。其中,该属于零部件的关键词中可以包括词性为名词的关键词。在一个实施例中,该属于零部件的关键词中还可以包括词性为动词的关键词和/或为其它词性的关键词。该行动词词对序列中至少可以包括属于行动词的关键词。该属于行动词的关键词中可以包括词性为动词的关键词。在一个实施例中,该属于行动词的关键词中还可以包括词性为副词的关键词和/或为其它词性的关键词。
在一个实施例中,在不同类别的词对序列按照词性划分时,该第一类词对序列和第二类词对序列还可以为以下任意两种:形容词词对序列、动词词对序列、名词词对序列、副词词对序列。例如,该第一类词对序列可以为名词词对序列,该第二类词对序列可以为动词词对序列。或者,该第一类词对序列可以为名词词对序列,该第二类词对序列为形容词词对序列。其中,形容词词对序中的关键词的词性为形容词,动词词对序列中的关键词的词性为动词,名词词对序列中的关键词的词性为名词,副词词对序列中的关键词的词性为副词。
在一个实施例中,该不同类别的词对序列还可以是批注了词性的序列。即,第一类词对序列可以包括批注了词性的一个或者多个关键词。该第二类词对序列可以包括批注了词性的一个或多个关键词。例如,第一类词对序列可以为
Figure BDA0001700250810000069
其中,
Figure BDA00017002508100000610
可以对应于(关键词i1,关键词i1的词性),如(发动机,名词)、
Figure BDA00017002508100000611
可以对应于(关键词i2,关键词i2的词性)、
Figure BDA00017002508100000612
可以对应于(关键词im,,关键词im的词性)。第二类词对序列
Figure BDA0001700250810000071
其中,
Figure BDA0001700250810000072
可以对应于(关键词k1,关键词k1的词性),如(修理,动词)、
Figure BDA0001700250810000073
可以对应于(关键词k2,关键词k2的词性)、
Figure BDA0001700250810000074
可以对应于(关键词km,关键词km的词性)。
例如,第一类词对序列可以为批注了词性的零部件词对序列,该第二类词对序列可以为批注了词性的行动词词对序列。该零部件词对序列中至少可以包括该词序对列中属于零部件的关键词以及对应的词性。具体地,该属于零部件的关键词可以为属于汽车零部件的关键词。例如,该零部件词对序列包括(发动机,名词)和(轮胎,名词)等等。其中,该属于零部件的关键词中可以包括词性为名词的关键词。在一个实施例中,该属于零部件的关键词中还可以包括词性为动词的关键词和/或为其它词性的关键词。该行动词词对序列中至少可以包括属于行动词的关键词以及对应的词性。例如,该零部件词对序列包括(修理,动词)和(磨损,动词)等等。该属于行动词的关键词中可以包括词性为动词的关键词。在一个实施例中,该属于行动词的关键词中还可以包括词性为副词的关键词和/或为其它词性的关键词。
在一个实施例中,服务器对该词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,可以包括:服务器读取预设的序列模型,并利用该序列模型对该词序列进行词性识别处理以生成词性序列;组合该词性序列与该词序列以分别得到第一类词对序列和第二类词对序列。其中,该词性序列可以包括一个或多个词性,该一个或多个词性可以分为名词、动词、形容词、副词等等。该词性序列中各个词性可以与词序列中各个关键词相对应。
在一个实施例中,服务器可以组合词序列中相同词性的各个关键词以得到不同类别的词对序列。例如,服务器可以组合词序列中词性为名词的各个关键词以得到名词词对序列,并可以组合词序列中词性为动词的各个关键词以得到第二类词对序列。
在一个实施例中,服务器还可以按照顺序提取词序列中的关键词以得到不同类别的词对序列,从而可以增强相同词性的各个关键词之间的关联性,便于结合数据的上下文理解语义。
S104、服务器对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对。
为了结合实际应用场景等因素为终端提供更为准确的输入以便终端执行识别等操作,服务器可以对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,从而得到期望的实体。以汽车行业为例,服务器可以对该第一类词对序列中汽车的各零配件等关键词进行命名实体识别,从而确定出与该第一类词对序列中的各零配件等关键词对应的系统名称。
其中,该一个或者多个为预设类别的命名实体可以是从该第一类词对序列中关键词中提取出来的关键词,和/或还可以是从数据库中查询出的与第一类词对序列中各个词对中各个关键词相关联的实体。该提取出来的关键词以及该与各个关键词相关联的实体为预设类别。例如,若该第一类词对序列为前述的WNpart,则该一个或多个为预设类别的实体可以为P={Part1,Part2,…,Partl}。其中,Part1可以对应于实体1、Part2可以对应于实体2、Partl可以对应与实体l。
在一个实施例中,服务器对该第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对该实体以及该第二类词对序列进行处理,得到目标意向词对,可以包括:对该第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据该词对组合确定出一个或多个为预设类别的实体;利用预设的词对匹配模型,对该实体以及该第二类词对序列进行处理,得到意向词对序列,并从该意向词对序列中提取目标意向词对。其中,该意向词对序列由一个或多个意向词对构成。
在一个实施例中,服务器根据该词对组合确定出一个或多个为预设类别的实体,可以包括:服务器对该词对组合进行命名实体识别处理以确定出一个或多个为预设类别的实体。
下面将举例说明服务器利用预设的词对匹配模型,对该实体以及该第二类词对序列进行处理,得到意向词对序列,并从该意向词对序列中提取目标意向词对的过程。
例如,若服务器的数据库中预设了词序列匹配模型C(s,t,λ),则服务器可以从数据库中读取词序列匹配模型C(s,t,λ),并可以将P={Part1,Part2,…,Partl}和
Figure BDA0001700250810000081
作为C(s,t,λ)的输入,在经过C(s,t,λ)处理后可以得到意向词对序列
Figure BDA0001700250810000082
并可以从该意向词对序列中选取目标意向词对
Figure BDA0001700250810000083
其中,
Figure BDA0001700250810000084
为WNv中的关键词,
Figure BDA0001700250810000085
为P中的实体。若该意向词对序列为WP={(修理,发动机),(修理,轮胎),(关闭,汽车空调)},则服务器可以选取(修理,发动机)作为目标意向词对。
在一个实施例中,该从该意向词对序列中提取目标意向词对序列,包括:获取该意向词对序列中各个意向词对对应的概率;根据该各个意向词对的概率,从该意向词对序列中确定出目标意向词对。
在一个实施例中,该从该一项词对序列中提取目标意向词对序列,具体可以包括:获取所述意向词对序列中各个意向词对对应的概率;将所述各个意向词对中概率最大的意向词对确定为目标意向词对。
例如,若该意向词对序列中各个意向词对的概率分别为:(修理,发动机)的概率:0.6,(修理,轮胎)的概率:0.5,(关闭,汽车空调)的概率0.45,则可以选取(修理,发动机)作为目标意向词对。
其中,上述各个意向词对的概率是由该词对匹配模型预先计算好的。在一个实施例中,若词对匹配模型为已经训练好的CRF模型(如线性linear-CRF模型),则上述从意向词对序列中提取目标意向词对的过程可以对应于该词对匹配模型的解码过程。
S105、服务器将与所述目标意向词对对应的关联信息发送至所述终端。
服务器可以查询出与该目标意向词对对应的关联信息,并将该关联信息发送至终端。该目标意向词对应的关联信息包括但不限于关键词、实体、语句等信息,还可以为图片、音频、视频等信息,本申请实施例对其不做限制。
例如,若目标意向词对为(修理,发动机),则该目标意向词对对应的关联信息可以为“针对汽车发送机长期处于高温环境导致汽车发送机烧坏的情况,建议用户采用解决方案A对汽车发送机进行修理”。
可见,图2所示的实施例中,服务器可以接收终端发送的原始数据,并对该原始数据进行处理得到第一类词性序列和第二类词性序列,服务器可以对该第一类词对序列进行命名实体识别得到一个或者多个为预设类别的实体,并对该实体和该第二类词对序列进行处理得到目标意向词对,从而将与该目标词对对应的关联信息发送至该终端,可以为终端预测出重要的信息或解析出重要的信息,从而为终端提供更准确有效的输入,有利于提高终端数据识别速率和准确度,并提升用户体验。
请参阅图3,为本申请实施例提供的另一种数据处理方法的流程示意图。该方法可以应用于图1所示的数据处理系统中。具体地,该方法可以包括:
S201、服务器接收终端发送的原始数据。
S202、服务器对所述原始数据进行分词,得到词序列。
S203、服务器对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列。
S204、服务器对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对。
需要说明的是,步骤S201-S204可以参见图2实施例中的步骤S101-S104,本申请实施例在此不做赘述。
S205、服务器提取数据库模型。
服务器可以生成并存储该数据库模型。其中,该数据库模型中存储了各个词对与各个关联信息的对应关系;每一个词对对应一个或者多个关联信息。该关联信息包括但不限于关键词、实体、语句等信息,还可以为图片、音频、视频等信息,本申请实施例对其不做限制。
在一个实施例中,该各个词对至少可以包括第二类词对序列中的关键词与以及与第二类词对序列中的关键词对应的实体,从而使得服务器可以利用该数据库模型对该目标意向词对进行语义识别,以确定出与该目标意向词对对应的关联信息。
S206、服务器利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
S207、服务器将与所述目标意向词对对应的关联信息发送至所述终端。
由于该目标意向词对可以包括第二类词对序列中的目标关键词以及与该目标关键词对应的目标实体,因此结合该目标关键词以及该目标实体,服务器可以利用该数据模型对该目标意向词对进行语义识别,确定出与该目标意向词对对应的关联信息。
具体地,由于数据库模型中存储了各个词对与各个关联信息的对应关系,服务器可以在数据库模型中查找出该目标意向词对对应的关联信息发送至终端,从而使得终端可以利用服务器返回的更为准确的数据作为输入,执行识别等操作。
可见,图3所示的实施例中,服务器可以接收终端发送的原始数据,并对该原始数据进行处理得到第一类词性序列和第二类词性序列,服务器可以对该第一类词对序列进行命名实体识别得到一个或者多个为预设类别的实体,并对该实体和该第二类词对序列进行处理得到目标意向词对,并可以通过数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息,从而将与该目标词对对应的关联信息发送至该终端,可以为终端预测出重要的信息或解析出重要的信息,从而为终端提供更准确有效的输入,并可以提高数据识别速率和准确度,提升用户体验。
请参阅图4,为本申请实施例提供的一种服务器的结构示意图。具体地,该服务器可以包括以下步骤:
接收单元10,用于接收终端发送的原始数据。
分词单元20,用于对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词。
处理单元30,用于对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列。
所述处理单元30,还用于对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对。
发送单元40,用于将与所述目标意向词对对应的关联信息发送至所述终端。
在一种可选的实施方式中,所述处理单元30对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,具体为读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
在一种可选的实施方式中,所述处理单元30对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,具体为对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对。其中,所述意向词对序列由一个或多个意向词对构成。
在一种可选的实施方式中,所述处理单元30从所述意向词对序列中提取目标意向词对序列,具体为获取所述意向词对序列中各个意向词对对应的概率;所述各个意向词对的概率由所述词对匹配模型预先计算得出;将所述各个意向词对中概率最大的意向词对确定为目标意向词对。
在一种可选的实施方式中,提取单元50,用于在所述发送单元40将与所述目标意向词对对应的关联信息发送至所述终端之前,提取数据库模型;所述数据库模型中存储各个词对与各个关联信息的对应关系;其中,每一个词对对应一个或者多个关联信息。
在一种可选的实施方式中,所述处理单元30,还用于利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
可见,图4所示的实施例中,服务器可以接收终端发送的原始数据,并对该原始数据进行处理得到第一类词性序列和第二类词性序列,服务器可以对该第一类词对序列进行命名实体识别得到一个或者多个为预设类别的实体,并对该实体和该第二类词对序列进行处理得到目标意向词对,从而将与该目标词对对应的关联信息发送至该终端,可以为终端预测出重要的信息或解析出重要的信息,从而为终端提供更准确有效的输入,提高了终端数据识别速率和准确度,并提升了用户体验。
请参阅图5,为本申请实施例提供的另一种服务器的结构示意图。如图5所示的本实施例中的服务器可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。可选地,该输入设备502可以是上述申请实施例中的接收单元10,该输出设备503可以是上述申请实施例中的发送单元40。
在本申请实施例中,由处理器501加载并执行计算机存储介质中存放的一条或一条以上指令,以实现上述图2-图3所示方法流程的相应步骤;具体实现中,计算机存储介质中的一条或一条以上指令由处理器501加载并执行如下步骤:
通过输入设备502接收终端发送的原始数据;
对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;
对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列;
对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对;
通过输出设备503将与所述目标意向词对对应的关联信息发送至所述终端。
可选地,该至少一条程序指令由该处理器501加载并执行所述对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,具体用于执行以下步骤:读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
可选地,该至少一条程序指令由该处理器501加载并执行所述对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,具体用于执行以下步骤:对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对;其中,所述意向词对序列由一个或多个意向词对构成。
可选地,该至少一条程序指令由该处理器501加载并执行所述从所述意向词对序列中提取目标意向词对序列,具体用于执行以下步骤:获取所述意向词对序列中各个意向词对对应的概率;所述各个意向词对的概率由所述词对匹配模型预先得到;将所述各个意向词对中概率最大的意向词对确定为目标意向词对。
可选地,该至少一条程序指令由该处理器501加载并执行所述将与所述目标意向词对对应的关联信息发送至所述终端之前,还用于执行以下步骤:提取数据库模型;所述数据库模型中存储各个词对与各个关联信息的对应关系;其中,每一个词对对应一个或者多个关联信息;利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
应当理解,所称处理器501可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。该输入设备502与输出设备503还可以为标准的有线或无线通信接口。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储数据库。
在本申请的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现本申请实施例提供的图2和图3所描述的数据处理方法的实现方式。
该计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。该计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,该计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及所述终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
接收终端发送的原始数据,其中所述原始数据包括语音或文字数据;
对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;
对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,其中,所述第一类词对序列和所述第二类词对序列为形容词词对序列、动词词对序列、名词词对序列、副词词对序列中的任意两种词对序列;
对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,包括:对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体,其中,所述一个或多个为预设类别的实体为从所述第一类词对序列的关键词中提取的实体,和/或从数据库中查询出的与所述关键词相关联的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对;
将与所述目标意向词对对应的关联信息发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,包括:
读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;
组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
3.根据权利要求1所述的方法,其特征在于,所述从所述意向词对序列中提取目标意向词对序列,包括:
获取所述意向词对序列中各个意向词对对应的概率;所述各个意向词对的概率由所述词对匹配模型预先计算得出;
将所述各个意向词对中概率最大的意向词对确定为目标意向词对。
4.根据权利要求1所述的方法,其特征在于,所述将与所述目标意向词对对应的关联信息发送至所述终端之前,所述方法还包括:
提取数据库模型;所述数据库模型中存储各个词对与各个关联信息的对应关系;利用所述数据库模型对所述目标意向词对进行语义识别,以确定出与所述目标意向词对对应的关联信息。
5.一种服务器,其特征在于,包括:
接收单元,用于接收终端发送的原始数据,其中所述原始数据包括语音或文字数据;
分词单元,用于对所述原始数据进行分词,得到词序列;所述词序列包括一个或多个关键词;
处理单元,用于对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,其中,所述第一类词对序列和所述第二类词对序列为形容词词对序列、动词词对序列、名词词对序列、副词词对序列中的任意两种词对序列;
所述处理单元,还用于对所述第一类词对序列进行命名实体识别,得到一个或者多个为预设类别的实体,并对所述实体以及所述第二类词对序列进行处理,得到目标意向词对,具体为对所述第一类词对序列中各个词对进行计算,得到一个或多个词对组合;根据所述词对组合确定出一个或多个为预设类别的实体,其中,所述一个或多个为预设类别的实体为从所述第一类词对序列的关键词中提取的实体,和/或从数据库中查询出的与所述关键词相关联的实体;利用预设的词对匹配模型,对所述实体以及所述第二类词对序列进行处理,得到意向词对序列,并从所述意向词对序列中提取目标意向词对;
发送单元,用于将与所述目标意向词对对应的关联信息发送至所述终端。
6.根据权利要求5所述的服务器,其特征在于,所述处理单元对所述词序列进行词性识别处理,得到第一类词对序列和第二类词对序列,具体为读取预设的序列模型,并利用所述序列模型对所述词序列进行词性识别处理以生成词性序列;组合所述词性序列与所述词序列以分别得到第一类词对序列和第二类词对序列。
7.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
CN201810629991.8A 2018-06-19 2018-06-19 一种数据处理方法、服务器及计算机可读介质 Active CN108959247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810629991.8A CN108959247B (zh) 2018-06-19 2018-06-19 一种数据处理方法、服务器及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810629991.8A CN108959247B (zh) 2018-06-19 2018-06-19 一种数据处理方法、服务器及计算机可读介质

Publications (2)

Publication Number Publication Date
CN108959247A CN108959247A (zh) 2018-12-07
CN108959247B true CN108959247B (zh) 2022-09-09

Family

ID=64490728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810629991.8A Active CN108959247B (zh) 2018-06-19 2018-06-19 一种数据处理方法、服务器及计算机可读介质

Country Status (1)

Country Link
CN (1) CN108959247B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539744B (zh) * 2019-01-21 2023-08-29 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN110287284B (zh) * 2019-05-23 2021-07-06 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN112115710B (zh) * 2019-06-03 2023-08-08 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置
CN111444191B (zh) 2019-06-13 2021-10-12 黄亚娟 一种宇宙空间数据系统、方法、计算机设备和存储介质
CN112883295B (zh) * 2019-11-29 2024-02-23 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质
CN113783954A (zh) * 2021-09-07 2021-12-10 中控智网(北京)能源技术有限公司 一种油气管道组分数据传输系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885936A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于句法分析的特征观点词对的提取方法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN106919551A (zh) * 2015-12-28 2017-07-04 株式会社理光 一种情感词极性的分析方法、装置及设备
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
CN107832290B (zh) * 2017-10-19 2020-02-28 中国科学院自动化研究所 中文语义关系的识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885936A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于句法分析的特征观点词对的提取方法
CN106919551A (zh) * 2015-12-28 2017-07-04 株式会社理光 一种情感词极性的分析方法、装置及设备
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Also Published As

Publication number Publication date
CN108959247A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
CN107832286B (zh) 智能交互方法、设备及存储介质
CN110502608B (zh) 基于知识图谱的人机对话方法及人机对话装置
US9792279B2 (en) Methods and systems for analyzing communication situation based on emotion information
CN106601237B (zh) 交互式语音应答系统及其语音识别方法
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
WO2021174717A1 (zh) 文本意图识别方法、装置、计算机设备和存储介质
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN106649825B (zh) 语音交互系统及其创建方法和装置
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN111310440B (zh) 文本的纠错方法、装置和系统
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
WO2021204017A1 (zh) 文本意图识别方法、装置以及相关设备
CN107656996B (zh) 基于人工智能的人机交互方法和装置
CN112199588A (zh) 舆情文本筛选方法及装置
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
WO2022257452A1 (zh) 表情回复方法、装置、设备及存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
WO2022022049A1 (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant