CN105956053B - 一种基于网络信息的搜索方法及装置 - Google Patents
一种基于网络信息的搜索方法及装置 Download PDFInfo
- Publication number
- CN105956053B CN105956053B CN201610268134.0A CN201610268134A CN105956053B CN 105956053 B CN105956053 B CN 105956053B CN 201610268134 A CN201610268134 A CN 201610268134A CN 105956053 B CN105956053 B CN 105956053B
- Authority
- CN
- China
- Prior art keywords
- information
- user request
- request information
- network text
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于网络信息的搜索方法及装置。本发明基于网络信息的搜索方法,包括:接收用户请求信息,并获取与用户请求信息相关的网络文本信息;根据所述用户请求信息对应领域的预设知识库,对网络文本信息进行分类,并根据所述分类结果确定所述用户请求信息对应的业务类型;根据业务类型,提取网络文本信息中与业务类型相关的关键词;根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;根据所述修正后的用户请求信息和所述业务类型进行搜索。本发明能够根据网络中获取的相关文本信息,纠正定位错误的用户请求,并根据网络中获取的相关文本信息中的关键词对用户请求信息进行补充,以便于后续的业务处理。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于网络信息的搜索方法及装置。
背景技术
近年来,语音助手作为用户与终端设备人机交互的一种新方式,受到越来越多用户的喜爱,语音助手是一种在终端设备中运行的智能语音对话软件。
在用户利用语音助手进行人机交互时,尤其是在进行音、视频检索过程中,由于用户针对请求信息的表达多为口语化短文本,信息包含量较低;而且,在口语化的表达中,极易出现表达不准确、同一概念的多样化表达等问题;进一步的,由于用户的方言和口音的影响,语音识别错误的现象也经常出现。这些问题共同造成了用户的请求信息与知识库中的先验知识表达不一致的问题。因此在进行用户意图分析时,由于缺乏先验知识的支撑,很难将该用户的请求信息定位到与之相关的业务,更无法进行后续的搜索过程。
示例的,用户在通过语音助手搜索电视节目《极限挑战》时,极易表达为“挑战极限”,此时,用户输入的请求信息“挑战极限”与知识库中的先验知识“极限挑战”不一致,进而不能将此用户请求准确定位到音视频检索的相关处理逻辑,最终不能完成对电视节目《极限挑战》的相关检索。
现有技术中,针对上述问题的通用做法是进行语义映射,即利用知识图谱、同义词典中的先验知识,将用户的请求信息映射为标准化表达。但是该种解决方式对知识图谱与同义词典中先验知识的依赖性较强,对于错误表达、语音收录不全以及语音识别错误等问题,先验知识很难完全覆盖,因此依然存在无法准确定位业务并无法完成搜索的问题。
发明内容
本发明提供一种基于网络信息的搜索方法及装置,旨在解决语音搜索过程中,由于请求信息缺失、请求信息表达不准确所导致的无法准确定位搜索业务的问题。
第一方面,本发明提供一种基于网络信息的搜索方法,包括:
接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;
根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据分类结果确定所述用户请求信息对应的业务类型;
根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;
根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
根据所述修正后的用户请求信息和所述业务类型进行搜索。
第二方面,本发明提供一种基于网络信息的搜索装置,包括:
获取模块,用于接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;
确定模块,用于根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据分类结果确定所述用户请求信息对应的业务类型;
关键词提取模块,用于根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;
第一处理模块,用于根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
第二处理模块,用于根据所述修正后的用户请求信息和所述业务类型进行搜索。
本发明基于网络信息的搜索方法及装置,通过接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据所述分类结果确定所述用户请求信息对应的业务类型;根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;根据所述修正后的用户请求信息和所述业务类型进行搜索,本发明能够根据获取的用户请求信息相关的网络文本信息,确定出用户请求信息对应的业务类型,还可以根据该网络文本信息中与业务类型相关关键词对用户请求信息进行修正,根据修正后的用户请求信息以及业务类型进行搜索,搜索时采用的用户请求信息以及业务类型的准确性较高,解决了现有技术中由于请求信息缺失、请求信息表达不准确所导致的无法准确定位搜索业务的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于网络信息的搜索方法一实施例的流程示意图;
图2为本发明方法一实施例的文本信息的文本分类流程示意图;
图3为本发明方法一实施例的文本信息的向量特征空间构建流程示意图;
图4为本发明方法一实施例的文本信息的关键词提取流程示意图;
图5为本发明方法一实施例的知识自学习流程示意图;
图6为本发明基于网络信息的搜索装置一实施例的结构示意图;
图7为本发明基于网络信息的搜索设备一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于网络信息的搜索方法和装置,应用于智能电视、智能手机、平板电脑、智能手表等具有联网功能的终端设备上,示例的,本发明实施例的搜索方法和装置,可以应用于智能电视、智能手机、平板电脑、智能手表等终端设备的语音助手,语音助手是一种在终端设备中运行的智能语音对话软件。用户可以通过语音助手来实现或替代部分我们在智能终端上的查询与操作。语音助手通过智能对话与即时问答的智能交互,来实现帮忙用户解决问题。本发明实施例的技术方案是针对音视频领域语音助手进行业务搜索时,基于网络信息进行业务类型补充,并且基于网络关键词对语音输入内容进行补充完善,然后进行业务搜索。
图1为本发明基于网络信息的搜索方法一实施例的流程示意图。如图1所示,本实施例的方法,包括:
步骤101、接收用户请求信息,并获取与用户请求信息相关的网络文本信息;
步骤102、根据用户请求信息对应领域的预设知识库,对网络文本信息进行分类,并根据分类结果确定用户请求信息对应的业务类型;
步骤103、根据业务类型,提取网络文本信息中与业务类型相关的关键词;
步骤104、根据关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
步骤105、根据修正后的用户请求信息和业务类型进行搜索。
示例的,用户请求信息可以通过语音助手语音输入,也可以通过实体键盘或虚拟键盘输入,还可以通过触摸屏输入,本发明对此不做限定。
具体的,首先,对于接收到的用户请求信息,可以利用网络爬虫在互联网中爬取与用户请求信息相关的网络文本信息。然后,根据用户请求信息对应领域的预设知识库,对网络文本信息进行分类,并根据分类结果确定与用户请求信息对应的业务类型,并根据业务类型,利用关键词提取算法提取文本信息中与业务类型相关的关键词,然后,利用关键词对用户请求信息进行修正,最后根据修正后的用户请求信息和确定的业务类型进行搜索。
其中,在实际应用中,可以将修正后的用户请求信息与业务类型交由用户进行确认,根据用户的确认结果,执行后续处理。
举例来说,业务类型可以包括三类:音乐搜索、视频搜索和聊天,用户请求信息例如为:挥舞着翅膀的女孩,现有技术由于该用户请求信息中存在错误而无法将该用户请求信息对应的业务定位为搜索音乐《挥着翅膀的女孩》而本发明实施例中对根据上述获取的网络文本信息进行分类,得到的分类结果都属于音乐搜索,因此确定出来的业务类型为音乐搜索,根据获取的文本信息提取的关键词包括:挥着翅膀的女孩和容祖儿,根据提取的关键词对用户请求信息进行修正,修正后的用户请求信息为挥着翅膀的女孩,最终可以利用确定的业务类型与修正后的用户请求信息完成音乐搜索过程。进一步的,可以根据用户将“挥着翅膀的女孩”表达为“挥舞着翅膀的女孩”的频次,决定是否将“挥舞着翅膀的女孩”直接映射为“挥着翅膀的女孩”,并在预设知识库中存储,完成知识的自学习过程。
本实施例提供的方法,通过接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据所述分类结果确定所述用户请求信息对应的业务类型;根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;根据关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;根据修正后的用户请求信息和业务类型进行搜索,本实施例提供的方法能够根据获取的与用户请求信息相关的网络文本信息,确定出用户请求信息对应的业务类型,还可以根据网络文本信息中与业务类型相关的关键词对用户请求信息进行修正,根据修正后的用户请求信息以及业务类型进行搜索,搜索时采用的用户请求信息以及业务类型的准确性较高,解决了现有技术中由于请求信息缺失、请求信息表达不准确所导致的无法准确定位搜索业务的问题。
在上述实施例的基础上,获取与用户请求信息相关的网络文本信息的具体实施方式有多种,在本实施例中,作为一种可实施的方式,具体可以通过如下方式实现:
通过网络爬虫从互联网中获取与用户请求信息相关的网络文本信息。
如用户请求信息为“挥舞着翅膀的女孩”,通过网络爬虫获取与用户请求信息相关的文本信息,则获取到相关的网络文本信息,例如,文本信息中包括演唱者姓名为容祖儿,专辑名称为“独照”等信息。
图2为本发明方法一实施例的文本信息的文本分类流程示意图。进一步的,作为一种可实施的方式,步骤102具体可以通过如下方式实现:
根据用户请求信息对应领域的预设知识库中预先训练的分类模型对网络文本信息进行文本分类;
根据网络文本信息的文本分类结果确定用户请求信息对应的业务类型。
具体来说,本实施例中预设知识库,如音视频领域知识库,在预设知识库中预先训练分类模型,并根据预先训练的分类模型对获取到的网络文本信息进行文本分类,根据网络文本信息的文本分类结果确定用户请求信息对应的业务类型。
其中,在实际应用中,根据用户请求信息对应领域的预设知识库中预先训练的分类模型对网络文本信息进行文本分类,具体可以通过如下方式实现:
分别根据预设知识库获取训练语料和网络文本信息的向量特征;
根据训练语料的向量特征训练分类模型;
根据训练得到的分类模型对网络文本信息的向量特征进行分类。
具体的,如图2所示,网络文本信息的向量特征空间的构建是网络文本信息转换为向量表达的过程,以方便后续利用分类模型进行文本分类。首先,分别根据预设知识库获取训练语料以及网络文本信息的向量特征;该预设知识库为用户请求信息对应领域的预设知识库,然后根据训练语料的向量特征训练分类模型;最终,根据训练得到的分类模型对网络文本信息的向量特征进行文本分类。
文本分类算法有许多,下面以KNN算法为例,对文本分类过程进行说明。KNN算法的基本思想是把未知文本d与训练集中的每篇文本进行比较,找出最邻近的k篇文本,用这k篇文本的类别来判断未知文本的类别。类别判断方法如下:对找到的k篇文本,为每个类别打分,然后排序,只有分值超过指定阈值的类别才判定为文本d的类别。每个类别的分值的计算公式如下:
其中,为待分类文本d的向量特征;为最近邻的k篇文本之一dj的向量特征;为与的相似度,通常使用余弦相似度;为文本在类别ci中的权重,通常属于ci时取1,不属于ci时取0;bi为训练得到的阈值。所有使得的类别均判定为文本d的类别,上述公式对应的为分类模型。若文本分类的结果为多个不同的类别,可以反馈给用户,由用户进行选择,确定最终属于的类别。
示例的,通过百度搜索用户请求信息“极限挑战”,搜索的结果例如有6个与该用户请求信息相关的网络文本信息的结果,其中有5个结果中的网络文本信息都包括“极限挑战”的真人秀综艺节目,只有1个结果中的网络文本信息包括“挑战极限”图书,5个结果为与预设知识库的训练语料相关,因此可以用这5个结果的类别,作为用户请求信息对应的业务类型,即确定该业务类型为视频搜索。
再例如,通过百度搜索用户请求信息“挥舞着翅膀的女孩”,搜索的结果例如有10个与该用户请求信息相关的网络文本信息的结果,其中都包括容祖儿演唱的“挥着翅膀的女孩”的歌曲,因此可以用这10个结果的类别,作为用户请求信息对应的业务类型,即最终将该用户请求信息对应的业务类型确定为音乐搜索。
图3为本发明方法一实施例的文本信息的向量特征空间构建流程示意图。在上述实施例的基础上,进一步的,根据所述预设知识库获取所述网络文本信息的向量特征,具体可以通过以下方式实现:
根据预设知识库对网络文本信息进行分词处理获取m个分词结果;
分别确定分词结果对应的n个语义属性在网络文本信息中的权值,将n个语义属性的权值组成网络文本信息的向量特征;其中,m和n均为大于0的整数。
具体来说,与普通文本分类不同,本发明涉及的专业领域为音视频领域,该类文本信息包含大量的音视频作品名称、相关人物名称(演唱者、演员、导演)等信息,这些词语本身在不同网络文本之间的共现概率较小。这就导致了传统基于词语本身的IF-IDF文本向量空间构建方法,对音视频检索领域的文本分类效果较差。而发明人分析发现这些词语的语义属性却有着较大共性因此本发明充分利用词语的语义属性信息,本实施例的网络文本信息的向量特征空间构建流程如图3所示,网络文本信息(文本d)的向量特征空间结构如表1所示。
表1向量特征空间结构
语义属性 | 权值 | 备注 |
a<sub>1</sub> | W(a<sub>1</sub>,d) | 影视名称 |
a<sub>2</sub> | W(a<sub>2</sub>,d) | 导演姓名 |
a<sub>3</sub> | W(a<sub>3</sub>,d) | 演员姓名 |
a<sub>4</sub> | W(a<sub>4</sub>,d) | 编剧姓名 |
a<sub>5</sub> | W(a<sub>5</sub>,d) | 播放、收看、收听等动词 |
a<sub>6</sub> | W(a<sub>6</sub>,d) | 影视类型 |
a<sub>7</sub> | W(a<sub>7</sub>,d) | 相关视频网站 |
a<sub>8</sub> | W(a<sub>8</sub>,d) | 音乐名称 |
a<sub>9</sub> | W(a<sub>9</sub>,d) | 演唱者姓名 |
a<sub>10</sub> | W(a<sub>10</sub>,d) | 作曲者姓名 |
a<sub>11</sub> | W(a<sub>11</sub>,d) | 作词者姓名 |
a<sub>12</sub> | W(a<sub>12</sub>,d) | 专辑名称 |
a<sub>13</sub> | W(a<sub>13</sub>,d) | 相关音乐网站 |
a<sub>14</sub> | W(a<sub>14</sub>,d) | 相关音乐应用 |
a<sub>15</sub> | W(a<sub>15</sub>,d) | 其他音乐关键词 |
a<sub>16</sub> | W(a<sub>16</sub>,d) | 其他视频关键词 |
a<sub>17</sub> | W(a<sub>17</sub>,d) | 相关视频应用名称 |
为保证语义属性提取的领域相关性,首先基于预设知识库对获取的网络文本信息进行分词处理,分词后结果用(W1,W2,...,Wt,...,Wm)表示;t取值为1至m。然后对分词结果进行语义属性的标注,得到m个分词对应的n个语义属性,例如对W1的语义属性的标注结果为a1,a5,a16;W2的语义属性的标注结果为a9,a10,a11。最后,利用如下的公式计算各语义属性对应的权值。
其中,W(a,d)为语义属性a在文本d中的权值,tf(a,d)为语义属性a在文本d中的词频,N为文本总数,na为所有文本中出现a的文本数。
例如,假设W1、W3、W5的语义属性的标注结果出现语义属性a1,则语义属性a1在文本d中的词频等于分词W1、W3、W5在文本d中的词频之和。
然后,根据n个语义属性的权值,得到网络文本信息d的向量特征:
其中,s取值为1至n;a1,...,as,...,an为n个语义属性,例如上表中n取值为17。基于此种方法分别对训练语料、与用户请求信息相关的网络文本信息进行向量特征空间的构建,利用训练语料获得的向量特征训练分类模型。然后基于此分类模型完成对实时的网络文本信息的分类,从而确定出与用户请求信息对应的业务类型。
图4为本发明方法一实施例的文本信息的关键词提取流程示意图。在上述实施例的基础上,进一步的,步骤103中提取文本信息中与业务类型相关的关键词,具体可以采用如下方式实现:
根据预设知识库通过命名实体识别算法获取网络文本信息中的实体名称;
根据关键词提取算法从分词结果和实体名称中提取与业务类型相关的关键词。
具体来说,在经过文本分类之后,就可以完成对业务类型的确定,将用户请求信息准确定位到相关业务处理流程。但是,由于关键信息的缺乏,在定位到相关业务类型之后,依然无法进行后续处理,因此也达不到准确理解用户请求的目的。例如,用户请求信息为“挥舞着翅膀的女孩”(用户的真实意图为查询歌曲“挥着翅膀的女孩”),经过对网络中相关文本信息的文本分类,可以理解用户是要进行音乐搜索,将其定位音乐搜索业务,并进入到音乐业务处理逻辑。但是,仅仅通过文本分类的结果,依然无法确定用户最终的目的是查询歌曲名称为“挥着翅膀的女孩”的歌曲。这就需要对网络文本信息进行进一步的挖掘,提取其中的关键词信息,来对用户请求信息进行修正。本实施例的流程参考图4所示。
对于音视频领域的搜索来说,最为重要的关键信息为作品名称、相关人物姓名(演唱者、演员、导演等)。而这类关键词数量众多,且更新频率较快,分词语料库很难保证对所有作品名称以及人名的完全收录。而收录不完全的状况会在最初的分词过程中就出现错误,使得关键词提取效果也较差。因此,本发明在进行关键词提取之前首先根据预设知识库进行命名实体识别的过程,即通过命名实体识别算法获取文本信息中的实体名称。
然后,从分词结果和实体名称中进行与业务类型相关的关键词的提取。目前,对关键词提取的研究已相对成熟,采用的方法主要有:基于统计信息的关键词提取方法、基于机器学习的关键词提取算法和基于语义的关键词提取算法。考虑到本发明进行音视频检索的领域特性,以及后续业务处理中对语义信息的特殊需求,本发明优选的方案是采用了基于语义的关键词提取算法。
其中,在上述任一实施例中,用户请求信息对应领域包括:音视频领域。
图5为本发明方法一实施例的知识自学习流程示意图。在上述实施例的基础上,本实施例中,进一步的,为了充分利用当前自然语言检索的信息,步骤104之后还可以进行如下操作:
存储经过用户确认的关键词、业务类型和用户请求信息对应的记录信息。
具体来说,在完成关键词信息提取之后,就可以根据所提取的关键词信息进行后续的具体业务处理,从而完成搜索过程。然而,该处理仍为一次性过程,在用户下次进行相同搜索请求时,还需重复上述过程,这在一定程度上会对系统的整体效率产生影响。为完成对当次网络文本信息的挖掘信息的充分利用,实现系统的知识自学习过程,本实施例的流程参考图5所示。
为保证知识自学习、信息搜索过程的准确性,首先将网络文本信息解析后的文本分类信息(即业务定位信息)与关键词信息,交由用户确认。将用户确认之后的信息在临时数据库中进行存储,临时数据库结构如表2所示。
表2临时数据库表结构
字段名称 | 数据类型 |
记录ID | int |
用户请求信息 | varchar |
文本分类信息 | varchar |
关键词信息 | varchar |
用户ID | int |
结合用户请求信息、请求频次等信息,不定期对临时数据库进行进一步挖掘,挖掘未登录词信息、不同用户的常用说法信息等,将这些信息存储到预设知识库中,完成系统的自学习过程。
图6为本发明基于网络信息的搜索装置一实施例的结构示意图。如图6所示,本实施例的基于网络信息的搜索装置,包括:
获取模块601,用于接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;
确定模块602,用于根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据所述分类结果确定所述用户请求信息对应的业务类型;
关键词提取模块603,用于根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;
第一处理模块604,用于根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
第二处理模块605,用于根据所述修正后的用户请求信息和所述业务类型进行搜索。
可选地,作为一种可实施的方式,所述获取模块601,具体用于:
通过网络爬虫从互联网中获取与所述用户请求信息相关的网络文本信息。
可选地,作为一种可实施的方式,所述确定模块602,包括:
第一确定单元,用于根据所述用户请求信息对应领域的预设知识库中预先训练的分类模型对所述网络文本信息进行文本分类;
第二确定单元,用于根据所述网络文本信息的文本分类结果确定所述用户请求信息对应的业务类型。
可选地,作为一种可实施的方式,所述第一确定单元,具体用于:
分别根据所述预设知识库获取训练语料和所述网络文本信息的向量特征;
根据训练语料的向量特征训练分类模型;
根据训练得到的分类模型对所述网络文本信息的向量特征进行文本分类。
可选地,作为一种可实施的方式,所述第一确定单元,还具体用于:
根据所述预设知识库对所述网络文本信息进行分词处理获取m个分词结果;
分别确定所述分词结果对应的n个语义属性在所述网络文本信息中的权值,将所述n个语义属性的权值组成所述网络文本信息的向量特征;其中,m和n均为大于0的整数。
可选地,作为一种可实施的方式,所述关键词提取模块603,具体用于:
根据所述预设知识库通过命名实体识别算法获取所述网络文本信息中的实体名称;
根据关键词提取算法从所述分词结果和所述实体名称中提取所述网络文本信息中与所述业务类型相关的关键词。
可选地,作为一种可实施的方式,所述用户请求信息对应领域包括:音视频领域。
可选地,作为一种可实施的方式,还包括:
存储模块,用于存储经过用户确认的所述关键词、所述业务类型和所述用户请求信息对应的记录信息。
本实施例的装置,可以用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明基于网络信息的搜索设备的一实施例的结构示意图。如图7所示,本实施例的基于自然语言检索的业务定位设备,可以包括:存储器701、处理器702和通信接口703;其中,存储器701,用于存储程序;具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器701可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器702,用于执行存储器701存储的程序,用于执行本发明法实施例所提供的技术方案,其实现原理和技术效果类似,可参考上述任一项方法实施例,此处不再赘述。
通信接口703,用于接收用户请求信息;
上述装置中获取模块、确定模块、关键词提取模块、第一处理模块和第二处理模块的功能可以通过处理器702实现。
上述部件通过一条或多条总线进行通信。本领域技术人员可以理解,图7中示出的设备的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
需要说明的是,对于设备实施例而言,由于其基本相应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种基于网络信息的搜索方法,其特征在于,包括:
接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;所述网络文本信息包括从互联网中获取的与所述用户请求信息相关的文本信息;
根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据分类结果确定所述用户请求信息对应的业务类型;
根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;
根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
根据所述修正后的用户请求信息和所述业务类型进行搜索。
2.根据权利要求1所述的方法,其特征在于,获取与所述用户请求信息相关的网络文本信息,包括:
通过网络爬虫从互联网中获取与所述用户请求信息相关的网络文本信息。
3.根据权利要求1所述方法,其特征在于,所述根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据分类结果确定所述用户请求信息对应的业务类型,包括:
根据所述用户请求信息对应领域的预设知识库中预先训练的分类模型对所述网络文本信息进行文本分类;
根据所述网络文本信息的文本分类结果确定所述用户请求信息对应的业务类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述用户请求信息对应领域的预设知识库中预先训练的分类模型对所述网络文本信息进行文本分类,包括:
分别根据所述预设知识库获取训练语料和所述网络文本信息的向量特征;
根据训练语料的向量特征训练分类模型;
根据训练得到的分类模型对所述网络文本信息的向量特征进行分类。
5.根据权利要求4所述的方法,其特征在于,根据所述预设知识库获取所述网络文本信息的向量特征,包括:
根据所述预设知识库对所述网络文本信息进行分词处理获取m个分词结果;
分别确定所述分词结果对应的n个语义属性在所述网络文本信息中的权值,将所述n个语义属性的权值组成所述网络文本信息的向量特征;其中,m和n均为大于0的整数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词,包括:
根据所述预设知识库通过命名实体识别算法获取所述网络文本信息中的实体名称;
从所述分词结果和所述实体名称中提取所述网络文本信息中与所述业务类型相关的关键词。
7.一种基于网络信息的搜索装置,其特征在于,包括:
获取模块,用于接收用户请求信息,并获取与所述用户请求信息相关的网络文本信息;所述网络文本信息包括从互联网中获取的与所述用户请求信息相关的文本信息;
确定模块,用于根据所述用户请求信息对应领域的预设知识库,对所述网络文本信息进行分类,并根据分类结果确定所述用户请求信息对应的业务类型;
关键词提取模块,用于根据所述业务类型,提取所述网络文本信息中与所述业务类型相关的关键词;
第一处理模块,用于根据所述关键词对所述用户请求信息进行修正,以获取修正后的用户请求信息;
第二处理模块,用于根据所述修正后的用户请求信息和所述业务类型进行搜索。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
通过网络爬虫从互联网中获取与所述用户请求信息相关的网络文本信息。
9.根据权利要求8所述的装置,其特征在于,所述确定模块,包括:
第一确定单元,用于根据所述用户请求信息对应领域的预设知识库中预先训练的分类模型对所述网络文本信息进行文本分类;
第二确定单元,用于根据所述网络文本信息的文本分类结果确定所述用户请求信息对应的业务类型。
10.根据权利要求9所述的装置,其特征在于,所述第一确定单元,具体用于:
分别根据所述预设知识库获取训练语料和所述网络文本信息的向量特征;
根据训练语料的向量特征训练分类模型;
根据训练得到的分类模型对所述网络文本信息的向量特征进行文本分类。
11.根据权利要求10所述的装置,其特征在于,所述第一确定单元,还具体用于:
根据所述预设知识库对所述网络文本信息进行分词处理获取m个分词结果;
分别确定所述分词结果对应的n个语义属性在所述网络文本信息中的权值,将所述n个语义属性的权值组成所述网络文本信息的向量特征;其中,m和n均为大于0的整数。
12.根据权利要求11所述的装置,其特征在于,所述关键词提取模块,具体用于:
根据所述预设知识库通过命名实体识别算法获取所述网络文本信息中的实体名称;
根据关键词提取算法从所述分词结果和所述实体名称中提取所述网络文本信息中与所述业务类型相关的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610268134.0A CN105956053B (zh) | 2016-04-27 | 2016-04-27 | 一种基于网络信息的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610268134.0A CN105956053B (zh) | 2016-04-27 | 2016-04-27 | 一种基于网络信息的搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105956053A CN105956053A (zh) | 2016-09-21 |
CN105956053B true CN105956053B (zh) | 2019-07-16 |
Family
ID=56915875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610268134.0A Active CN105956053B (zh) | 2016-04-27 | 2016-04-27 | 一种基于网络信息的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956053B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066621B (zh) * | 2017-05-11 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 一种相似视频的检索方法、装置和存储介质 |
CN108259976B (zh) * | 2018-03-07 | 2021-02-26 | 海信视像科技股份有限公司 | 电视频道的排序方法及电视 |
CN109033161B (zh) * | 2018-06-19 | 2021-08-10 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN110019948B (zh) * | 2018-08-31 | 2022-04-26 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109614621B (zh) * | 2018-12-11 | 2023-09-19 | 中国移动通信集团江苏有限公司 | 一种校正文本的方法、装置及设备 |
CN111382265B (zh) * | 2018-12-28 | 2023-09-19 | 中国移动通信集团贵州有限公司 | 搜索方法、装置、设备和介质 |
CN110427461B (zh) * | 2019-08-06 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110517689B (zh) * | 2019-08-28 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
CN111626693B (zh) * | 2020-04-28 | 2022-07-01 | 北京健康之家科技有限公司 | 业务信息的审核方法及装置 |
CN112507127B (zh) * | 2020-12-07 | 2022-12-06 | 厦门渊亭信息科技有限公司 | 一种基于先验知识图谱的智能抽取系统及方法 |
CN114721833B (zh) * | 2022-05-17 | 2022-08-23 | 中诚华隆计算机技术有限公司 | 一种基于平台业务类型的智能云端协调方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668821B1 (en) * | 2005-11-17 | 2010-02-23 | Amazon Technologies, Inc. | Recommendations based on item tagging activities of users |
CN103793427A (zh) * | 2012-10-31 | 2014-05-14 | 北京百度网讯科技有限公司 | 确定目标呈现关键词的优化呈现关键词的方法与设备 |
CN103823844A (zh) * | 2014-01-26 | 2014-05-28 | 北京邮电大学 | 社区问答服务中基于主客观上下文的问题转发系统和方法 |
CN104090958A (zh) * | 2014-07-04 | 2014-10-08 | 许昌学院 | 一种基于领域本体的语义信息检索系统及方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008030510A2 (en) * | 2006-09-06 | 2008-03-13 | Nexplore Corporation | System and method for weighted search and advertisement placement |
-
2016
- 2016-04-27 CN CN201610268134.0A patent/CN105956053B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668821B1 (en) * | 2005-11-17 | 2010-02-23 | Amazon Technologies, Inc. | Recommendations based on item tagging activities of users |
CN103793427A (zh) * | 2012-10-31 | 2014-05-14 | 北京百度网讯科技有限公司 | 确定目标呈现关键词的优化呈现关键词的方法与设备 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN103823844A (zh) * | 2014-01-26 | 2014-05-28 | 北京邮电大学 | 社区问答服务中基于主客观上下文的问题转发系统和方法 |
CN104090958A (zh) * | 2014-07-04 | 2014-10-08 | 许昌学院 | 一种基于领域本体的语义信息检索系统及方法 |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105956053A (zh) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
TWI732271B (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN115238101B (zh) | 一种面向多类型知识库的多引擎智能问答系统 | |
WO2021232725A1 (zh) | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 | |
CN107818781B (zh) | 智能交互方法、设备及存储介质 | |
Wu et al. | Emotion recognition from text using semantic labels and separable mixture models | |
CN108897867A (zh) | 用于知识问答的数据处理方法、装置、服务器和介质 | |
US7533089B2 (en) | Hybrid approach for query recommendation in conversation systems | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
EP3405912A1 (en) | Analyzing textual data | |
US20100185691A1 (en) | Scalable semi-structured named entity detection | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN108920649B (zh) | 一种信息推荐方法、装置、设备和介质 | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN110287364B (zh) | 语音搜索方法、系统、设备及计算机可读存储介质 | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN110147494A (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
CN106021234A (zh) | 标签提取方法及系统 | |
Chen et al. | Fine-grained product categorization in e-commerce | |
CN111737523A (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |