CN107341152A - 一种参数输入的方法及装置 - Google Patents

一种参数输入的方法及装置 Download PDF

Info

Publication number
CN107341152A
CN107341152A CN201610279720.5A CN201610279720A CN107341152A CN 107341152 A CN107341152 A CN 107341152A CN 201610279720 A CN201610279720 A CN 201610279720A CN 107341152 A CN107341152 A CN 107341152A
Authority
CN
China
Prior art keywords
vector
information
keyword
individual character
sample word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610279720.5A
Other languages
English (en)
Other versions
CN107341152B (zh
Inventor
钱晓军
李小龙
漆远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610279720.5A priority Critical patent/CN107341152B/zh
Publication of CN107341152A publication Critical patent/CN107341152A/zh
Application granted granted Critical
Publication of CN107341152B publication Critical patent/CN107341152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种参数输入的方法及装置,该方法中服务器在接收到终端发送的关键词后,可根据预先保存的各样本字通过字体矩阵而生成的向量,确定出该关键词所对应的关键词向量,相应的,服务器根据该关键词,确定出与该关键词相匹配的各信息后,可根据预先保存的各样本字通过字体矩阵而生成的向量,确定出各信息所对应的各信息向量,并将各信息向量以及关键词向量作为神经网络模型的输入参数输入到神经网络模型中。相对于基于词典而生成的向量来说,基于字体矩阵而生成的向量可准确的表示出各关键词以及与各关键词相匹配的各信息,进而可有效的提高神经网络模型进行数据处理时的准确性。

Description

一种参数输入的方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种参数输入的方法及装置。
背景技术
随着计算机技术的快速发展,人工智能技术也逐步发展并完善起来,现在,人们可通过人工智能技术,完成诸多的数据处理工作,人工智能的发展不仅提高了人们的数据处理的能力,而且还使得人们得到的数据处理结果更加的合理、准确。
当前,随着神经网络模型的不断发展,神经网络模型所涉及的领域也愈加的广泛,其中,对于搜索、广告点击量预测、图像识别等领域来说,神经网络模型的作用尤为显著。比如,对于搜索领域来说,人们为了能够得到更好的搜索结果,通常可采用神经网络模型来完成信息的搜索。具体的,用户在终端中输入用于搜索的关键词后,终端可将该关键词发送给服务器,而服务器在接收到该关键词,可根据该关键词,查找出与该关键词相匹配的各文档,而后,服务器可将该关键词以及各文档转换成向量,并将得到的各向量作为输入参数输入到神经网络模型中,其中,服务器在将该关键词和文档转换成向量时,可根据预设的词典,确定出该关键词和文档在该词典中出现的位置,进而根据该关键词和文档中的各单字在该词典中出现的位置,分别得出用于表示该关键词以及各文档的各向量。
例如,假设用户输入的用于搜索的关键词为“C”,而服务器的预设词典中一共有“A、B、C、D、E、F、G”7个词,这样,服务器可根据该预设词典中包含的词汇数量,确定出一个向量维数为7的向量“0000000”,而后,服务器在确定出该关键词“C”出现在该预设词典中的第3个位置上后,可将确定出的向量“0000000”的相应位置(即第3个位置)上的0置成1,进而得到一个用于表示该关键词“C”的7维向量“0010000”。与此同时,服务器可根据关键词“C”,搜索出与该关键词“C”相匹配的各文档,其中,对于某一文档来说,该文档的内容为“CAD”,该“CAD”分别由“C”、“A”、“D”这三个词组成,这三个词全部出现在了服务器的预设词典中,因此,与生成用于表示关键词“C”的向量方式相同,服务器可根据这三个词在预设词典中出现的位置,确定出表示该文档的向量为“1011000”,相应的,服务器可根据这种方式,依次确定出各文档关于该预设词典的向量。而后,服务器在分别确定出关键词“C”的向量以及各文档关于该预设词典的向量后,可将该关键词“C”的向量以及各信息关于该预设词典的向量依次输入到神经网络模型中,而神经网络模型将根据获取到的各个向量,分别计算出关键词“C”与各信息的相关度(该相关度可以是一个权重值),这样一来,神经网络模型可按照相关度由大到小的顺序,将各相关度对应的信息进行排序,从而得到与关键词“C”相匹配的信息的排序结果。
从上述示例中可以看出,词典中包含的词汇往往就决定了服务器所生成的用于表示关键词或文档的向量。然而,在现有技术中,词典中存储的词汇通常都是一些常用的高频词汇,而对于一些不常用的低频词汇来说,这些低频词汇通常都是不会存储在该词典中的,而在实际应用中,这些低频词汇可能恰恰是用户所关心的,这样一来,由于该词典中未存储这些低频词汇,因此,服务器根据当前的词典而得出的能够表示关键词或各文档的向量也将是不准确的,进而导致服务器将该向量输入到神经网络模型后,神经网络模型根据该向量而给出的数据处理结果虽然看似是合理的,但是由于词典中缺少一些与该关键词相关的低频词汇,因此,这一数据处理实际上也将是不准确的。
不仅如此,神经网络模型的数据处理速度通常都是与输入向量的维数相关的,即,输入的向量维数越大,神经网络模型根据该向量而得出的数据处理结果所消耗的时间也将越长,而在实际应用中,词典的词汇容量通常都是巨大的,该词典中除了会存储诸如英文字母、单词、汉字词组等词汇外,还会存储诸如符号、计算机常用代码等词汇,因此,通常情况下,词典中通常都会存储上亿或更多的词汇,这样一来,若预设的词典中存储的词汇越多,则服务器生成的用于表示该关键词的向量的维数也将越大,即,服务器根据搜索关键词在词典中出现的位置,来得出能够表示该关键词的向量将是一个维数极大的向量,进而导致了将该向量作为输入参数输入到神经网络模型中时,神经网络模型处理该输入参数的用时也将较长。与此同时,服务器在将上述向量作为输入参数输入到神经网络模型之前,通常都会将该向量存储在内存中,这样一来,由于该向量的向量维数极大,因此,该向量将会极大的占有内存的存储空间,进而给服务器带来运行负担。
发明内容
本申请实施例提供一种参数输入的方法,用于解决现有技术中输入到神经网络模型中的输入向量的不准确而导致的神经网络模型进行数据处理后得出的数据处理结果不准确的问题。
本申请实施例提供一种消息发送的装置,用于解决现有技术中输入到神经网络模型中的输入向量的不准确而导致的神经网络模型进行数据处理后得出的数据处理结果不准确的问题。
本申请实施例采用下述技术方案:
本申请实施例提供一种参数输入的方法,包括:
当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息;
根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到的所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的;
针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量;
将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
本申请实施例提供一种参数输入的装置,包括:
确定信息模块,当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息;
第一确定向量模块,根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到的所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的;
第二确定向量模块,针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量;
参数输入模块,将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于本申请实施在生成输入到神经网络模型中的向量时并不是基于词典来生成的,而是基于字体矩阵来生成的向量,相对于基于词典而生成的向量来说,基于字体矩阵而生成的向量不受词汇使用状况的限制,可准确的对关键词以及与该关键词相匹配的各文档进行表示,因此,将基于字体矩阵而生成的向量作为神经网络模型的输入参数输入到神经网络模型后,可有效的提高神经网络模型进行数据处理时的准确性。与此同时,基于字体矩阵而生成的向量在向量维数上要小于基于词典而生成的向量,这样一来,将基于字体矩阵而生成的向量作为神经网络模型的输入参数输入到神经网络模型后,可有效的降低神经网络模型进行数据处理时所消耗的时长,提高了神经网络模型进行数据处理时的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的参数输入的过程;
图2为本申请实施例提供的样本字的点阵字体示意图;
图3为本申请实施例提供的将各向量输入在神经网络模型中的示意图;
图4为本申请实施例提供的一种参数输入的装置结构示意图。
具体实施方式
现有技术中,服务器通常都是根据预设的词典来生成用于输入到神经网络模型中的向量的,由于该词典中存储的词汇通常都是一些高频的词汇,因此,对于一些未在该词典中出现的低频词汇来说,该词汇将无法准确的以向量的形式表示出该低频词汇,进而导致将该向量输入到神经网络模型中时,神经网络模型根据该向量而得出的结果也将是不准确的,不仅如此,该词典中所包含的词汇数量往往也就决定了该向量的维数,而由于该词典中包含的词汇数量通常都是极大的,相应的,根据该词典而生成的该向量在维数上也将是极大的,将该向量输入到神经网络模型中时,神经网络模型的数据处理效率将会降低。为了有效避免这些问题的发生,在本申请实施例中,服务器生成用于表示关键词的向量时,将不再基于预设词典来生成向量,即,摒弃了现有技术中用于生成向量的预设词典,而是采用基于点阵字体来生成向量的方式来生成用于表示搜索关键词的向量,由于基于点阵字体来生成的向量不受词汇使用状况的限制,可准确的对关键词以及与该关键词相匹配的各文档进行表示,并且基于点阵字体而生成的向量在维数上要远小于基于预设词典而生成的向量,因此,将基于点阵字体而生成的向量作为神经网络模型的输入参数输入到神经网络模型中时,不但可以有效的提高神经网络模型进行数据处理时的准确性,还可有效的提高神经网络模型进行数据处理时的效率。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的参数输入的过程,具体包括以下步骤:
S101:当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息。
在实际应用中,用户在根据自身的需求,在网上搜索一些信息时,可在所持有的终端(诸如智能手机、平板电脑、电脑等终端设备)中输入用于搜索信息的关键词,具体的实现方式可以是用户在所持有的终端中打开搜索应用或搜索网页,并在相应的搜索输入框中输入用于搜索信息的关键词。终端在接收到用户输入的关键词后,可将该关键词发送给服务器,相应的,服务器也将接收用户通过终端发送的关键词,并根据该关键词,通过网络来确定出与该关键词相匹配的各信息,进而在后续过程中,将各信息进行排序,得到排序结果。
S102:根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的。
为了使用户得出的搜索结果在排序上更加的准确、合理,服务器通常会使用神经网络模型来完成用户的搜索需要。服务器在运用神经网络模型来进行搜索时,通常需要将用户用于搜索的关键词,以及服务器搜索出的与该关键词相匹配的各信息转换成用于表示该关键词或用于表示该信息的向量,并将得出的各个向量作为神经网络模型的输入参数,输入到神经网络模型中,从而使得神经网络模型将根据这些向量,来对得出的各搜索结果进行排序。因此,在本申请实施例中,当服务器接收到用户通过终端发送的关键词后,可将该关键词转换成能够作为神经网络模型输入参数的向量形式。而为了降低神经网络模型对各搜索结果进行排序时所消耗的时间,以及提高神经网络模型进行数据处理时的准确性,本申请实施例中摒弃了现有技术中通过预设词典来生成用于表示关键词与各信息的向量的方式,而改用通过点阵字体来生成用于表示关键词与各信息的向量的方式,通过采用基于点阵字体来生成用于表示关键词与各信息的向量的方式,可有效提高神经网络模型进行数据处理时的准确性,同时还可降低服务器在神经网络模型中所输入的向量的维数,提高神经网络模型的数据处理效率。
因此,服务器在将用户用于搜索的关键词转换成向量之前,可针对各个单字,预先确定出各单字所对应的向量,并将各单字对应的各向量存储在服务器中,这样一来,服务器在后续将用户用于搜索的关键词转换成向量时,即可在确定出该关键词中包含的各个单字后,根据预先保存的各单字对应的向量,确定出该关键词对应的向量。因此,在本申请实施例中,服务器可预先从网络中收集各个样本字,其中,服务器收集的样本字包括但不限于汉字、外文、符号等,而由于本申请实施例中用于表示关键词以及各信息(与关键词相匹配的信息)的向量都是基于点阵字体生成的,因此,服务器在收集到各个样本字后,需要预先确定出各个样本字的点阵字体,进而在后续过程中,根据各样本字的点阵字体,生成与各样本字相匹配的各向量。
服务器在确定出从网络中收集的各个样本字的点阵字体后,可针对每个样本字,根据该样本字的点阵字体中各实点的位置,生成与各样本字相匹配的各向量。具体的,众所周知,无论是汉字、外文还是符号,都可使用若干个点来进行表示,即,在使用若干个点来对一个汉字进行表示时,可将若干个点按照该汉字的字体结构进行排列,进而得出能够表示该汉字的点阵字体,而由于本申请实施例中,服务器生成用于表示关键词和各信息的向量是基于点阵字体来完成的,因此,服务器在确定出从网络中收集的各样本字的点阵字体后,可针对每个样本字,根据该样本字的点阵字体中各实点在该点阵字体中所处的位置,生成与该样本字相匹配的向量。
服务器在生成与该样本字相匹配的向量时,可针对该样本字的点阵字体中的每行点,根据该行点的数量,建立一个维数为该数量,并且每个元素为第一数值的向量,由于该样本字都是通过该样本字的点阵字体中的实点表示出来的,因此,服务器在可根据该行点中的实点在该行点中的位置,将先前建立的向量中相应位置处的元素的数值置为第二数值,从而得到针对每行点确定出的向量,而后,服务器在依次确定出针对每行点的向量后,可按照预设的顺序,将针对每行点确定出的向量进行组合,得到一个单字向量,进而将该单字向量作为与样本字相匹配的向量,如图2所示。
图2为本申请实施例提供的样本字的点阵字体示意图。
例如,假设服务器生成与样本字“英”相匹配的向量时,可先确定出一个该样本字“英”的点阵字体,即图2所示的16×16的点阵字体,从图2中可以看出,该16×16的点阵字体是由256个点所组成(该点即为图2中的各个单元格),在这256个点中,虚点(即图2中空白的单元格)表示样本字“英”的笔画未经过该点,而实点(即图2中带有实心圆点的单元格)则表示该样本字“英”的笔画经过了该点,因此,通过这样一个16×16的点阵字体,即可准确、清楚的表示出该样本字“英”,而服务器也可根据各实点在该16×16的点阵字体中所处的位置,确定出能够表示该样本字“英”的向量,其中,服务器在确定能够表示该样本字“英”的向量时,可先针对该16×16的点阵字体的每行点,根据该16×16的点阵字体中每行点的数量,建立一个维数为16(每行中有16个点),且每个元素为0的向量“0000000000000000”,而对于该16×16的点阵字体中的第一行(该第一行是按照各行在16×16的点阵字体中自上而下的顺序来划分的)来说,服务器可根据各的实点(即图2中的实心圆点)在该行点中所处的位置,将向量中相应位置处的0置为1,得到针对该行点确定出的向量为“0000010000010000”,相应的,服务器可根据这种方式,依次确定出该16×16的点阵字体中每行点的向量,如表1所示。
向量
第1行 0000010000010000
第2行 0000010000010000
第3行 0111111111111111
第4行 0000010000010000
第5行 0000010010010000
第6行 0000000010000000
第7行 0001111111111100
第8行 0001000010000100
第9行 0001000010000100
第10行 0001000010000100
第11行 0111111111111111
第12行 0000000101000000
第13行 0000001000100000
第14行 0000010000010000
第15行 0000100000001000
第16行 0111000000000111
表1
在分别确定出每行点所对应的向量后,服务器可按照各行在该16×16的点阵字体中自上而下的顺序,将各行点对应的向量进行组合,得到一个单字向量,进而将该单字向量就作为能够表示该样本字“英”的向量。
服务器在依次确定出与各样本字相匹配的向量后,可将各向量进行存储,继而为后续服务器将用户用于搜索的关键词转换为输入到神经网络模型的向量做准备。
从这里可以看出,服务器在确定与各样本字相匹配的向量时并不是基于词典而得到的,而是采用基于点阵字体生成向量的方式,确定出与各样本字相匹配的向量的,由于,无论各样本字是否是常用的样本字,各样本字都可以采用点阵字体的形式进行表示,相应的,点阵字体也能够完整的将各样本字进行呈现,因此,通过基于点阵字体来生成向量的方式而得出的针对各样本字的向量,可以准确的表示出各样本字,从而使得服务器后续根据与各样本字相匹配的向量而确定出的关键词对应的关键词向量也能够准确的表示出该关键词,相应的,服务器在后续过程中,通过基于点阵字体来生成向量的方式,也可得到能够准确表示出与该关键词相匹配的各信息所对应的各信息向量,进而服务器将该关键词向量以及各信息向量输入到神经网络模型中时,神经网络模型根据该关键词向量和各信息向量而得出的结果也将是准确的。
需要说明的是,上述示例中所提到的点阵字体并不只限定于16×16的点阵字体,在本申请实施例中,点阵字体可以是任意维度的,不仅如此,该点阵字体也并不一定是正方形的点阵,还可以是矩形的点阵,而考虑到点阵字体需要清楚的表示出各样本字,服务器所选取的点阵的维数不易过小,而由于在本申请实施例中,服务器确定出与各样本字相匹配的向量都是基于点阵字体得出的,因此,点阵的维数相应的将决定出各样本字所对应的向量的维数,考虑到随着向量维数的增大会增加神经网络模型进行数据处理所消耗的时间,服务器所选取的点阵也不易过大,因此,基于上述两点的考虑,服务器可将各样本字表示成16×16或20×20的点阵字体。
另外,服务器将针对每行点而确定出来的向量组合成单字向量时,除了可以按照上述说明的按照自上而下的顺序将针对每行点确定出的向量进行组合外,也可以自下而上的顺序对各向量进行组合。当然,服务器也可确定出针对每列点的向量,并按照自左向右或自右向左的顺序,将针对每列点而确定出的向量进行组合,得出与该样本字相匹配的向量。
由于服务器已经通过基于点阵字体来生成向量的方式,确定出了各样本字对应的向量,因此,服务器在接收到用户通过终端发送的关键词后,可将该关键词转换成能够作为神经网络模型输入参数的向量形式,具体的转换过程可以是服务器在接收到用户通过终端发送的用于搜索的关键词后,可确定出该关键词中包含的各个单字,而后,服务器可根据预先保存的与各样本字的字形相匹配的向量,查找出与该关键词中各单字对应的样本字的向量,继而再按照各单字在该关键词中的排列顺序,将查找出的各单字对应的样本字的向量进行组合,从而确定出该关键词所对应的关键词向量。
例如,假设服务器在接收到用户通过终端发送的关键词“黄河大合唱”后,可根据服务器中预先保存的与各样本字相匹配的向量,分别查找到该关键词“黄河大合唱”中所包含的5个单字所对应的样本字的向量,其中,服务器查找到的单字“黄”所对应的样本字的向量为“a”,单字“河”所对应的样本字的向量为“q”,单字“大”所对应的样本字的向量为“z”,单字“合”所对应的样本字的向量为“h”,单字“唱”所对应的样本字的向量为“v”,这样,服务器在分别查找到这5个单字所对应的样本字的向量后,可按照这5个单字在关键词“黄河大合唱”中的排列顺序,将这5个单字所对应的样本字的向量进行组合,得到向量“aqzhv”,进而将该向量“aqzhv”就作为确定出的该关键词“黄河大合唱”所对应的关键词向量。
需要说明的是,在实际应用中,服务器将一个向量作为神经网络模型的输入参数输入到神经网络模型时,该向量通常都是一个固定维数的向量,即,神经网络模型所能接收的向量通常需要符合神经网络模型所规定的关键词向量的向量维数,因此,在本申请实施例中,服务器在确定出关键词所对应的关键词向量后,可根据神经网络模型所规定的向量维数,判断该关键词向量的向量维度是否满足神经网络模型所规定的向量维数,其中,当服务器确定出该关键词向量的向量维数小于神经网络模型所规定的向量维数时,则服务器根据神经网络模型所规定的向量维数,将由该关键词中各单字所对应的样本字的向量而组成的向量转换成维数为神经网络模型所规定的向量维数的向量,并将转换后的向量作为该关键词所对应的关键词向量,具体做法可以是,当服务器确定出该关键词向量的向量维数小于神经网络模型所规定的向量维数时,可在该关键词向量的后面或前面连续补若干位数的0,使得补完0后所得到的关键词向量的向量维数与神经网络模型所规定的向量维数(即,神经网名模型所规定的向量维数)相等,进而将补完0后所得到的该关键词向量作为关键词所对应的关键词向量。
例如,假设服务器在确定出某一关键词中所包含的各单字对应的样本字的向量后,可按照各单字在该关键词中的排列顺序,将确定出的各单字所对应的样本字的向量进行组合,得到了一个向量维数为12的关键词向量,与此同时,服务器在发现到神经网络模型所规定的向量维数为17后,可判断出该关键词向量的向量维数小于神经网络模型所规定的向量维数,因此,为了使关键词向量的维数符合神经网名模型所规定的向量维数,服务器可在该关键词向量的后面补充5个0,这样一来,补完0后所得到的关键词向量在向量维数上与神经网络模型所规定的向量维数相同,继而,服务器可将补完0后所得到的关键词向量作为该关键词所对应的关键词向量。
当服务器根据关键词中包含的各单字所对应的样本字向量,以及各单字在该关键词中的排列顺序而确定出该关键词所对应的关键词向量,在向量维数上大于神经网络模型所规定的向量维数,则服务器可将该关键词向量进行截取,得到与神经网络模型所规定的向量维数相同的向量,并将该截取后的向量就作为该关键词所对应的关键词向量。具体的截取方式可以是,在确定出的关键词向量(该向量为截取前的向量)的前面(从头开始)或后面(从尾开始)连续截取若干位数的向量,并将截取后的向量就作为该关键词所对应的关键词向量。
例如,假设神经网络模型所规定的向量维数为17,而服务器针对某一关键词而确定出的该关键词所对应的关键词向量的向量维数为22,则服务器可从该关键词向量的尾部开始,向前连续截取5位向量,从而得到与神经网络模型所规定的向量维数相同的向量,进而将截取后的向量就作为该关键词所对应的关键词向量。
上述说明的截取方式虽然能够使截取后的关键词向量符合神经网络模型所规定的向量维数,但是,由于服务器截取掉了原关键词向量(即未截取的关键词向量)中的一部分,相应的也就破坏了原关键词向量的完整性,这样一来,若服务器将截取后的关键词向量输入到神经网络模型中后,神经网络模型根据该截取后的关键词向量而得到的数据处理结果可能是一个准确性较低的数据处理结果。
为了防止上述情况的发生,在本申请实施例中,服务器也可通过修改神经网络模型所规定的向量维数,来使得服务器确定出的关键词向量符合神经网络模型所规定的向量维数,其中,为了使服务器确定出的关键词向量的向量维数不超出神经网络模型所规定的向量维数,服务器可通过大量的数据统计以及数据分析,确定出用户在进行搜索时所能输入的最长的有效关键词的单字个数,进而根据该最长的关键词中所包含的单字个数,以及与单字向匹配的向量的维数,确定出神经网络模型所规定的关键词向量的向量维数,并将该向量维数作为一个预设的关键词向量维数进行保存,方便后续进行使用。
例如,假设服务器通过大量的数据统计以及数据分析,确定出用户在进行搜索时所能输入的最长的有效关键词中包含的单字个数为30,因此,服务器可进一步的根据服务器中预设的各单字所能表示成的16×16的点阵字体,确定出神经网络模型所规定的关键词向量的向量维数为7680,并将该向量维数7680作为一个预设的关键词向量维数进行保存。
由于上述说明的神经网络模型所规定的关键词向量的向量维数是基于服务器确定出的最长的关键词而确定出来的,因此,服务器后续在接收到用户通过终端发送的关键词后,发现确定出的该关键词所对应的关键词向量的向量维数小于神经网络模型所规定的关键词向量的向量维数,则可根据预设的关键词向量维数(该预设的关键词向量维数与神经网络模型所规定的关键词向量的向量维数相同),将由该关键词中包含的各单字所对应的向量组合而成的向量转换为维数与预设的该关键词向量维数相同的向量,并将转换后的向量就作为该关键词所对应的关键词向量。具体的实施方式可以是,服务器可在确定出的关键词向量(即未转换的关键词向量)后面或前面用0进行补位,使得通过补位后而得到的向量在向量维数上与预设的关键词向量维数(即,神经网络模型所规定的关键词向量的向量维数)相同,进而将该补位后的向量就作为该关键词所对应的关键词向量。
需要说明的是,服务器在对确定出的关键词向量进行补位时,除了可以使用0进行补位外,还可使用1或其他数字进行补位,只需保证补位所使用的数字都为同一数字即可。
S103:针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量。
神经网络模型在进行数据处理的过程中,除了需要服务器将用户发送的用于搜索的关键词转换为向量形式输入到神经网络模型中外,还需要服务器将与该关键词相匹配的各个信息转换成向量形式输入到神经网络模型中,这样,神经网络模型才能得出相应的数据处理结果。因此,在本申请实施例中,服务器确定出与用户发送的关键词相匹配的各个信息后,可针对每个信息,根据该信息中包含的各单字,查找出与该信息中包含的各单字所对应的样本字的向量,而后,服务器可将确定出的各单字所对应的样本字的向量按照各单字在该信息的排列顺序进行组合,进而确定出该信息所对应的信息向量。相应的,服务器也可按照这种方式,分别确定出各信息所对应的信息向量,并在后续步骤S106中,将各信息对对应的信息向量以及关键词所对应的关键词向量,作为神经网络模型的输入参数,输入在神经网络模型中。
例如,假设服务器根据用户发送的关键词“英雄”而确定出的与该关键词“英雄”相匹配的一条信息为“电影英雄进军奥斯卡”,服务器在将该信息转换成向量形式时,可根据该信息中所包含的各个单字,以及预先存储的与各样本字的字形相匹配的向量,依次确定出各单字所对应的样本字的向量为“t”、“g”、“k”、“x”、“j”、“u”、“d”、“s”、“w”,而后,服务器可按照各单字在该信息中的排列顺序,将确定出的各单字所对应的样本字的向量进行组合,得到向量“tgkxjudsw”,进而将该向量“tgkxjudsw”就作为该信息所对应的信息向量。相应的,服务器也可通过这种方式,分别确定出与该关键词“英雄”相匹配的各信息所对应的信息向量。
需要说明的是,由于神经网络模型所能接收到的信息向量通常需要符合神经网络模型所规定的信息向量的向量维数,因此,在本申请实施例中,服务器也将通过数据统计以及数据分析的方式,从网络中确定出最长的信息所包含的单字个数,进而再根据预设的字体矩阵,确定出该将最长的信息转换成向量形式时,该向量的向量维数,并将该向量维数作为预设的信息向量维数进行保存,与此同时,服务器可根据该向量维数,来修改神经网络模型所规定的信息向量的向量维数,即,修改后的神经网络模型所规定的信息向量的向量维数与服务器确定出的最长信息所对应的向量的向量维数相同。
例如,假设服务器通过数据统计以及数据分析,确定出网络中存在的最长的信息中所包含的单字个数为10000,因此,服务器可进一步的根据服务器中预设的各单字所能表示成的16×16的点阵字体,确定出神经网络模型所规定的信息向量的向量维数为2560000,并将该向量维数2560000作为一个预设的信息向量维数进行保存。
由于上述说明的神经网络模型所规定的信息向量的向量维数是基于服务器确定户的最长信息而得来的,因此,服务器后续在确定各信息所对应的信息向量时,若发现确定出的某一信息向量在向量维数上小于神经网络模型所规定的信息向量的向量维数,则可根据预设的信息向量维数(该预设的信息向量维数与神经网络模型所规定的信息向量的向量维数相同),将由该信息中包含的各单字所对应的向量组合而得到的向量转换为维数与预设的该信息向量维数相同的向量,并将转换后的向量就作为该信息所对应的信息向量,具体的实施方式可以是,服务器在确定出的信息向量(即未转换的信息向量)后面或前面用0或其他数字进行补位,得到与预设的信息向量维数相同的向量,进而将该补位后的向量作为该信息所对应的信息向量。
还需说明的是,服务器从网络中确定出的最长信息并不单指一个完整的信息,因为,在实际的搜索过程中,服务器根据用户发送的关键词而查找到的与该关键词相匹配的各个信息通常都是网页中的信息,而网页中的信息所包含的单字数量通常都不会过多,即,根据数据统计得出的一个网页中所包含的单字数据最多在10000个单字左右,因此,服务器基于字体矩阵而确定出的各信息所对应的信息向量与现有技术中基于词典而确定出的信息向量相比,基于字体矩阵而确定出的信息向量在向量维数上要远小于基于词典而确定出的信息向量,进而可有效的降低神经网络模型的运行负担,提高神经网络模型的数据处理效率。
S104:将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
服务器在分别确定出关键词所对应的关键词向量,以及与该关键词相匹配的各信息所对应的信息向量后,可将这些向量作为神经网络模型的输入参数输入到神经网络模型中,使得神经网络模型在接收到这些向量后,可通过对这些向量的内部运算,得出各信息的排序结果,并通过服务器,将该排序结果返回给用户所使用的终端中,如图3所示。
图3为本申请实施例提供的将各向量输入在神经网络模型中的示意图。
假设,服务器分别确定出与关键词对应的关键词向量S(12800维),以及与该关键词相匹配的三个信息所对应的信息向量D(256000维)、H(256000维)、G(256000维)后,可将这四个向量作为神经网络模型的输入参数输入到神经网络模型的输入层(Input layer)中,而神经网络模型的输入层在接收到这四个向量后,可将这四个向量发送到神经网络模型中的隐层(Hidden layer)中,隐层在接收到这四个向量后,将对这四个向量进行内部的运算,并将运算得到的结果发送至神经网络模型中的输出层(Output layer)中,而输出层则可将该结果(即排序结果)作为神经网络模型的数据处理结果输出给服务器。
从上述方法中可以看出,由于基于点阵字体而生成向量的方式不受词汇使用情况的影响,可准确的以向量的形式表示出关键词以及与该关键词相匹配的各信息,因此,相对于现有技术中通过词典来生成向量的方式,服务器可有效的提高生成用于输入在神经网络模型中的向量的准确性,进而提高神经网络模型根据该向量而进行数据处理时的准确性。不仅如此,基于点阵字体而确定出的向量在向量维数上要远小于基于词典而确定出的向量,因此,本申请实施例摒弃了现有技术中通过词典来生成向量的方式,而采用点阵字体确定向量的方式,确定出输入在神经网络模型中的各个向量,因此,可有效的降低神经网络模型进行数据处理所消耗的时间,同时减少了服务器存储各向量所占用的内存空间,提高了服务器的运行效率。
需要说明的是,在上述步骤S102中,为了进一步的降低向量的维数,服务器在生成针对每行点的向量时,可将该向量进一步的转化,例如,对于上述表1中的各行点所对应的向量来说,服务器可将每一个16维向量拆分成4个2进制数,而后,在将每一个2进制数转化成16进制数,这样一来,原有的16维向量即可通过4个16进制数而形成的向量来表示,进而使得该关键词“英”所对应的关键词向量,在向量维数上进一步的降低。
在实际应用中,神经网络模型用途十分的广泛,其中,对于搜索、广告点击量预测、推荐、对话系统、智能客服等领域来说,神经网络模型的作用尤为突出,然而,神经网络模型在这些领域的应用过程中,所接收到的向量基本都是基于词典而生成的,由于基于词典所生成的向量通常都是维数极大的向量,因此,神经网络模型在接收到这些向量后,所消耗的数据处理时间也将是较长的。为了避免基于词典来生成向量所带来的问题,对于涉及神经网络模型的领域来说,服务器也可采用基于点阵字体生成向量的方式,将一些文字、符号转换成能够输入到神经网络模型中的向量形式,并将这些向量输入到神经网络模型中。与现有技术相比,由于神经网络模型所接收到的向量在向量维数上极大的降低,因此,可有效的降低神经网络模型进行数据处理所消耗的时间,显著的提高了神经网络模型进行数据处理时的效率。
以上为本申请实施例提供的参数输入的方法,基于同样的思路,本申请实施例还提供一种参数输入的装置,如图4所示。
图4为本申请实施例提供的一种参数输入的装置结构示意图,具体包括:
确定信息模块401,当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息;
第一确定向量模块402,根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到的所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的;
第二确定向量模块403,针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量;
参数输入模块404,将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
所述装置还包括:
所述生成模块405,确定预先收集的各样本字的点阵字体;针对每个样本字,根据该样本字的点阵字体中各实点的位置,生成与该样本字相匹配的向量。
所述生成模块405,针对该样本字的点阵字体中的每行点,根据该行点的数量,建立维数为该数量、且每个元素为第一数值的向量;根据该行点中的实点在该行点中的位置,将向量中相应位置处的元素的数值置为第二数值,得到针对每行点确定出的向量;按照预设的顺序,将针对每行点确定出来的向量组合成单字向量,并将所述单字向量作为与该样本字相匹配的向量。
所述第一确定向量模块402,按照各单字在所述关键词中的排列顺序,将所述关键词中各单字对应的向量进行组合,确定出所述关键词对应的所述关键词向量;
所述第二确定向量模块403,按照各单字在该信息中的排列顺序,将该信息中各单字对应的向量进行组合,确定出该信息对应的所述信息向量。
所述第一确定向量模块402,根据预设的关键词向量维数,将由所述关键词中各单字对应的向量组合得到的向量转换成维数为所述关键词向量维数的向量,作为关键词向量;
所述第二确定向量模块403,根据预设的信息向量维数,将由该信息中各单字对应的向量组合得到的向量转换成维数为所述信息向量维数的向量,作为信息向量。
本申请实施例提供一种参数输入的方法及装置,该方法中服务器在接收到终端发送的关键词后,可根据预先保存的各样本字通过点阵字体而生成的向量,确定出该关键词所对应的关键词向量,相应的,服务器根据该关键词,确定出与该关键词相匹配的各信息后,可根据预先保存的各样本字通过点阵字体而生成的向量,确定出各信息所对应的各信息向量,并将各信息向量以及关键词向量作为神经网络模型的输入参数输入到神经网络模型中。由于本申请实施所采用的基于点阵字体而生成向量的方式不受词汇使用情况的影响,可准确的以向量的形式表示出关键词以及与该关键词相匹配的各信息,因此,相对于现有技术中通过词典来生成向量的方式,服务器可有效的提高生成用于输入在神经网络模型中的向量的准确性,进而提高神经网络模型根据该向量而进行数据处理时的准确性,不仅如此,基于点阵字体而生成的向量在维数上要远小于基于词典而生成的向量,因此,将基于点阵字体而生成的向量作为神经网络模型的输入参数输入到神经网络模型后,可有效的降低神经网络模型进行数据处理时所消耗的时长,提高了神经网络模型进行数据处理时的效率。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S103和步骤S104的执行主体可以为服务器,步骤105的执行主体可以为神经网络模型;又比如,步骤S103的执行主体可以为服务器,步骤S104和步骤S105的执行主体可以为神经网络模型;等等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种参数输入的方法,其特征在于,包括:
当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息;
根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到的所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的;
针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量;
将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
2.如权利要求1所述的方法,其特征在于,所述样本字的向量是根据每个样本字的点阵字体生成的,具体包括:
确定预先收集的各样本字的点阵字体;
针对每个样本字,根据该样本字的点阵字体中各实点的位置,生成与该样本字相匹配的向量。
3.如权利要求2所述的方法,其特征在于,根据该样本字的点阵字体中各实点的位置,生成与该样本字相匹配的向量,具体包括:
针对该样本字的点阵字体中的每行点,根据该行点的数量,建立维数为该数量、且每个元素为第一数值的向量;
根据该行点中的实点在该行点中的位置,将向量中相应位置处的元素的数值置为第二数值,得到针对每行点确定出的向量;
按照预设的顺序,将针对每行点确定出来的向量组合成单字向量,并将所述单字向量作为与该样本字相匹配的向量。
4.如权利要求1所述的方法,其特征在于,根据查找到的所述关键词中各单字对应的向量,确定所述关键词对应的关键词向量,具体包括:
按照各单字在所述关键词中的排列顺序,将所述关键词中各单字对应的向量进行组合,确定出所述关键词对应的所述关键词向量;
根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量,具体包括:
按照各单字在该信息中的排列顺序,将该信息中各单字对应的向量进行组合,确定出该信息对应的所述信息向量。
5.如权利要求4所述的方法,其特征在于,将所述关键词中各单字对应的向量进行组合,确定出所述关键词对应的所述关键词向量,具体包括:
根据预设的关键词向量维数,将由所述关键词中各单字对应的向量组合得到的向量转换成维数为所述关键词向量维数的向量,作为关键词向量;
将该信息中各单字对应的向量进行组合,确定出该信息对应的所述信息向量,具体包括:
根据预设的信息向量维数,将由该信息中各单字对应的向量组合得到的向量转换成维数为所述信息向量维数的向量,作为信息向量。
6.一种参数输入的装置,其特征在于,包括:
确定信息模块,当接收到终端发送的关键词时,根据所述关键词,确定与所述关键词相匹配的各信息;
第一确定向量模块,根据所述关键词中包含的各单字,查找各单字对应的样本字的向量,根据查找到的所述关键词中各单字对应的样本字的向量,确定所述关键词对应的关键词向量,其中,所述样本字的向量是根据每个样本字的点阵字体生成的;
第二确定向量模块,针对与所述关键词相匹配的每个信息,根据该信息中包含的各单字,查找该信息中包含的各单字对应的样本字的向量,根据查找到的该信息中包含的各单字对应的样本字的向量,确定该信息对应的信息向量;
参数输入模块,将所述关键词向量以及各信息分别对应的信息向量作为输入参数,输入到神经网络模型中,以通过所述神经网络模型对所述各信息进行排序。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
生成模块,确定预先收集的各样本字的点阵字体;针对每个样本字,根据该样本字的点阵字体中各实点的位置,生成与该样本字的相匹配的向量。
8.如权利要求7所述的装置,其特征在于,所述生成模块,针对该样本字的点阵字体中的每行点,根据该行点的数量,建立维数为该数量、且每个元素为第一数值的向量;根据该行点中的实点在该行中的位置,将向量中相应位置处的元素的数值置为第二数值,得到针对每行点确定出的向量;按照预设的顺序,将针对每行点确定出来的向量组合成单字向量,并将所述单字向量作为与该样本字相匹配的向量。
9.如权利要求6所述的装置,其特征在于,所述第一确定向量模块,按照各单字在所述关键词中的排列顺序,将所述关键词中各单字对应的向量进行组合,确定出所述关键词对应的所述关键词向量;
所述第二确定向量模块,按照各单字在该信息中的排列顺序,将该信息中各单字对应的向量进行组合,确定出该信息对应的所述信息向量。
10.如权利要求9所述的装置,其特征在于,所述第一确定向量模块,根据预设的关键词向量维数,将由所述关键词中各单字对应的向量组合得到的向量转换成维数为所述关键词向量维数的向量,作为关键词向量;
所述第二确定向量模块,根据预设的信息向量维数,将由该信息中各单字对应的向量组合得到的向量转换成维数为所述信息向量维数的向量,作为信息向量。
CN201610279720.5A 2016-04-28 2016-04-28 一种参数输入的方法及装置 Active CN107341152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610279720.5A CN107341152B (zh) 2016-04-28 2016-04-28 一种参数输入的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610279720.5A CN107341152B (zh) 2016-04-28 2016-04-28 一种参数输入的方法及装置

Publications (2)

Publication Number Publication Date
CN107341152A true CN107341152A (zh) 2017-11-10
CN107341152B CN107341152B (zh) 2020-05-08

Family

ID=60222909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610279720.5A Active CN107341152B (zh) 2016-04-28 2016-04-28 一种参数输入的方法及装置

Country Status (1)

Country Link
CN (1) CN107341152B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446378A (zh) * 2018-03-16 2018-08-24 蜜芽宝贝(北京)网络科技有限公司 基于用户搜索的方法、系统及计算机存储介质
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法
CN110941743A (zh) * 2019-10-14 2020-03-31 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
CN112507698A (zh) * 2020-12-07 2021-03-16 深圳市优必选科技股份有限公司 字向量生成方法、装置、终端设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668853B2 (en) * 2002-11-27 2010-02-23 Sony United Kingdom Limited Information storage and retrieval
CN102402561A (zh) * 2010-09-19 2012-04-04 中国移动通信集团四川有限公司 一种搜索方法和装置
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN104199822A (zh) * 2014-07-11 2014-12-10 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668853B2 (en) * 2002-11-27 2010-02-23 Sony United Kingdom Limited Information storage and retrieval
CN102402561A (zh) * 2010-09-19 2012-04-04 中国移动通信集团四川有限公司 一种搜索方法和装置
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN104199822A (zh) * 2014-07-11 2014-12-10 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446378A (zh) * 2018-03-16 2018-08-24 蜜芽宝贝(北京)网络科技有限公司 基于用户搜索的方法、系统及计算机存储介质
CN108446378B (zh) * 2018-03-16 2022-04-12 蜜芽宝贝(北京)网络科技有限公司 基于用户搜索的方法、系统及计算机存储介质
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法
CN108595426B (zh) * 2018-04-23 2021-07-20 北京交通大学 基于汉字字形结构性信息的词向量优化方法
CN110941743A (zh) * 2019-10-14 2020-03-31 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
CN110941743B (zh) * 2019-10-14 2023-09-15 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
CN112507698A (zh) * 2020-12-07 2021-03-16 深圳市优必选科技股份有限公司 字向量生成方法、装置、终端设备及计算机可读存储介质
CN112507698B (zh) * 2020-12-07 2024-05-24 深圳市优必选科技股份有限公司 字向量生成方法、装置、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107341152B (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN105068998B (zh) 基于神经网络模型的翻译方法及装置
CN105095219B (zh) 微博推荐方法和终端
CN107341152A (zh) 一种参数输入的方法及装置
CN107133213A (zh) 一种基于算法的文本摘要自动提取方法与系统
CN106980683A (zh) 基于深度学习的博客文本摘要生成方法
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN110209824A (zh) 基于组合模型的文本情感分析方法、系统、装置
CN111738355B (zh) 注意力融合互信息的图像分类方法、装置及存储介质
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN106547737A (zh) 基于深度学习的自然语言处理中的序列标注方法
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN106960001A (zh) 一种检索词的实体链接方法及系统
CN106257495A (zh) 一种数字识别方法及装置
CN107291825A (zh) 一种视频中同款商品的检索方法和系统
CN108062302A (zh) 一种特定文本信息的识别方法及装置
CN102609500A (zh) 一种问题推送方法和采用该方法的问答系统和搜索引擎
CN108108497A (zh) 关键词推荐方法及设备
CN106202224B (zh) 搜索处理方法及装置
CN111488953B (zh) 基于html源码特征对网页主题进行快速分类的方法
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN113095038A (zh) 基于多任务辨别器生成对抗网络的字体生成方法及装置
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191210

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, ky1-1205, Cayman Islands

Applicant after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Co., Ltd.

GR01 Patent grant
GR01 Patent grant